https://www.youtube.com/watch?v=WJskqfB7jDo&feature=youtu.be&ab_channel=ProfessorPalhares
02/Oct/2020
Preparado para entender as bases matemáticas da inteligência artificial?
No desafio do Palhares 2.0 vamos resolver passo-a-passo uma prova de doutorado da USP.
A questão 4 da prova 2 é uma das grandes surpresas do Desafio do Palhares 2.0, onde abordaremos o problema clássico de Reinforcement Learning (aprendizagem por reforço) chamado Multi-Armed Bandit. Nesse caso específico de MDP (Markov Decision Process) iremos trabalhar com o algoritmo Q-Learning utilizando a estratégia epsilon-greedy.
Aperte os cintos, que vamos iniciar nossa viagem aos segredos mais profundos da tecnologia.
Bem-vindo ao futuro!!!
*-*-*-*-*-.....-*-*-*-*-*