Professor Palhares

https://www.youtube.com/watch?v=WJskqfB7jDo&feature=youtu.be&ab_channel=ProfessorPalhares

02/Oct/2020

Preparado para entender as bases matemáticas da inteligência artificial?

No desafio do Palhares 2.0 vamos resolver passo-a-passo uma prova de doutorado da USP.

A questão 4 da prova 2 é uma das grandes surpresas do Desafio do Palhares 2.0, onde abordaremos o problema clássico de Reinforcement Learning (aprendizagem por reforço) chamado Multi-Armed Bandit. Nesse caso específico de MDP (Markov Decision Process) iremos trabalhar com o algoritmo Q-Learning utilizando a estratégia epsilon-greedy.

Aperte os cintos, que vamos iniciar nossa viagem aos segredos mais profundos da tecnologia.

Bem-vindo ao futuro!!!

*-*-*-*-*-.....-*-*-*-*-*

https://youtu.be/rN4fIGnOHAo

https://www.instagram.com/professorpalhares

https://www.facebook.com/professorpalhares

Blog

Desafio do Palhares 2.0 | Algoritmo Q-Learning - Prova 2 Questão 4