Ícone do site NeuronUP Brasil

Q-learning: Dos experimentos de Pavlov à neurorreabilitação moderna

NeuronUP Labs Experimentos de Pavlov

NeuronUP Labs Experimentos de Pavlov

O Q-learning evoluiu consideravelmente desde os primeiros experimentos comportamentais, como o condicionamento clássico de Pavlov, para se tornar uma das técnicas mais importantes no campo do Machine Learning. A seguir exploraremos como tem sido seu desenvolvimento e sua aplicação na neurorreabilitação e estimulação cognitiva.

Experimentos de Pavlov

Ivan Pavlov, um fisiologista russo do final do século XIX, é conhecido por estabelecer os fundamentos da psicologia comportamental através de suas experiências com o condicionamento clássico. Nestas experiências, Pavlov demonstrou que os cães podiam aprender a associar um estímulo neutro, como o toque de uma campainha, com um estímulo incondicionado, como a comida, provocando assim uma resposta incondicionada: a salivação.

NeuronUP Labs Experimentos de Pavlov.

Este experimento foi fundamental para demonstrar que o comportamento pode ser adquirido por associação, um conceito crucial que mais tarde influenciou o desenvolvimento de teorias de aprendizagem por reforço.

As teorias de aprendizagem por reforço

Essas teorias se concentram em como humanos e animais aprendem comportamentos a partir das consequências de suas ações, o que tem sido essencial para projetos de algoritmos como o Q-learning.

Existem alguns conceitos-chave com os quais precisamos nos familiarizar antes de continuar:

Nesse tipo de aprendizagem, um agente realiza ou executa ações no ambiente, recebe informações na forma de recompensa/penalidade e as utiliza para ajustar seu comportamento ao longo do tempo.

Teoria da aprendizagem por reforço. NeuronUP.

Um experimento clássico de aprendizagem por reforço é o experimento da caixa de Skinner, realizado pelo psicólogo americano Burrhus Frederic Skinner em 1938. Neste experimento, Skinner demonstrou que ratos poderiam aprender a pressionar uma alavanca para obter comida, usando o reforço positivo como meio de moldar o comportamento.

O experimento consiste em colocar um rato em uma caixa com uma alavanca que ele pode pressionar, um dispensador de comida e, às vezes, uma luz e um alto-falante.

Cada vez que o rato pressiona a alavanca, um grão de comida é liberado no dispensador. A comida atua como um reforço positivo, uma recompensa por pressionar a alavanca. Com o tempo, o rato começará a pressionar a alavanca com mais frequência, mostrando que aprendeu o comportamento por meio de reforço.

A caixa de Skinner. NeuronUP.

Esse tipo de aprendizado serviu de base para algoritmos de aprendizado de máquina, como o Q-learning, que permite que as máquinas aprendam comportamentos ideais de forma autônoma por meio de tentativa e erro.

O que é Q-learning?

O Q-learning foi introduzido por Christopher Watkins em 1989 como um algoritmo de aprendizagem por reforço. Este algoritmo permite que um agente aprenda o valor das ações num determinado estado, atualizando continuamente o seu conhecimento através da experiência, tal como o rato na caixa de Skinner.

Ao contrário dos experimentos de Pavlov, nos quais o aprendizado se baseava em associações simples, o Q-learning utiliza um método mais complexo de tentativa e erro. O agente explora diversas ações e atualiza uma tabela Q que armazena valores Q, que representam as recompensas futuras esperadas por realizar a melhor ação em um estado específico.

O Q-learning é aplicado em diversas áreas, como em sistemas de recomendação (como os utilizados pela Netflix ou Spotify), em veículos autónomos (como drones ou robôs) e na otimização de recursos. Exploraremos agora como esta tecnologia pode ser aplicada na neurorreabilitação.

Q-learning e NeuronUP

Uma das vantagens da NeuronUP é a possibilidade de customizar atividades de acordo com as necessidades específicas de cada usuário. No entanto, personalizar cada atividade pode ser entediante devido ao grande número de parâmetros a serem ajustados.

O Q-learning permite automatizar este processo, ajustando os parâmetros com base no desempenho do usuário nas diferentes atividades. Isto garante que os exercícios sejam desafiadores, mas alcançáveis, melhorando a eficácia e a motivação durante a reabilitação.

Como funciona?

Neste contexto, o agente, que poderia ser comparado a um usuário interagindo com uma atividade, aprende a tomar decisões ótimas em diferentes situações para superar corretamente a atividade.

O Q-learning permite que o agente experimente diversas ações interagindo com seu ambiente, recebendo recompensas ou penalidades e atualizando uma tabela Q que armazena esses valores Q. Esses valores representam as recompensas futuras esperadas por realizar a melhor ação em um determinado estado.

A regra de atualização do Q-learning é a seguinte:

Onde:

𝛂 – é a taxa de aprendizagem.

r – é a recompensa recebida após a ação a do estado s.

𝛄 – é o fator de desconto, que representa a importância das recompensas futuras.

s’ – é o próximo estado.

– é o valor máximo de Q para os próximos estados s‘.

Exemplo de aplicação em uma atividade NeuronUP

Vejamos a atividade da NeuronUP chamada “Imagens Embaralhadas”, que trabalha habilidades como planejamento, práxis visual-construtiva e relacionamento espacial. Nesta atividade o objetivo é resolver um quebra-cabeça que foi misturado e cortado em pedaços.

Atividade NeuronUP “Imagens confusas”. NeuronUP.

As variáveis ​​que definem a dificuldade desta atividade são o tamanho da matriz (o número de linhas e colunas) bem como o valor da desordem das peças (baixa, média, alta ou muito alta).

Para entrenar al agente a resolver el rompecabezas, se creó una matriz de recompensas basada en el número mínimo de movimientos necesarios para resolverlo, definido por la siguiente fórmula:

A variável do fator depende da variável do distúrbio. Uma vez criada a matriz, um algoritmo Q-learning foi aplicado para treinar o agente para resolver o quebra-cabeça automaticamente.

Essa integração inclui:

Essas funções trabalham juntas para permitir que o algoritmo Q-learning desenvolva uma estratégia ideal para resolver o quebra-cabeça.

Análise preliminar da execução do algoritmo

O algoritmo foi aplicado a um quebra-cabeça matricial 2×3 com fator de dificuldade 1 (baixo), correspondendo a um número mínimo de tentativas igual a 2. O algoritmo foi executado no mesmo quebra-cabeça 20 vezes, aplicando as mesmas configurações de embaralhamento em cada vez e atualizando a tabela Q após cada etapa. Após 20 execuções, o quebra-cabeça foi embaralhado em uma configuração diferente e o processo foi repetido, resultando em um total de 2.000 iterações. Os valores iniciais dos parâmetros foram:

A cada etapa, uma recompensa ou penalidade adicional era aplicada com base na quantidade correta de peças, permitindo ao agente entender seu progresso na resolução do quebra-cabeça. Isso foi calculado usando a fórmula:

Onde:

O gráfico abaixo ilustra o número de movimentos necessários por iteração para o modelo resolver um quebra-cabeça de tamanho 2×3. Inicialmente, o modelo exige um grande número de movimentos, refletindo sua falta de conhecimento sobre como resolver o quebra-cabeça de forma eficiente. Porém, à medida que o algoritmo Q-learning é treinado, observa-se uma tendência de queda no número de movimentos, sugerindo que o modelo está aprendendo a otimizar seu processo de resolução.

Desempenho de Q-learning. NeuronUP.

Esta tendência é uma indicação positiva do potencial do algoritmo para melhorar ao longo do tempo. No entanto, várias limitações importantes devem ser consideradas:

Estas limitaciones subrayan la necesidad de un refinamiento adicional del algoritmo, ya sea ajustando los parámetros de aprendizaje, mejorando la estructura del modelo o incorporando técnicas complementarias que permitan un aprendizaje más eficiente y adaptable a diferentes configuraciones de puzzles. A pesar de estas limitaciones, no debemos olvidarnos de las ventajas que ofrece el Q-learning en la neurorrehabilitación, entre ellas:

Concluindo, o Q-learning evoluiu desde suas raízes na psicologia comportamental e se tornou uma ferramenta poderosa em inteligência artificial e neurorreabilitação. A sua capacidade de adaptar atividades de forma autónoma torna-o um recurso valioso para melhorar a eficácia das terapias de reabilitação, embora ainda existam desafios a superar para otimizar plenamente a sua aplicação.

Bibliografía

Se você gostou deste artigo sobre Q-learning, provavelmente se interessará por estes artigos da NeuronUP:

Sair da versão mobile