ChatPaper.aiChatPaper

Aprendizado por Reforço em Linguagem Natural

Natural Language Reinforcement Learning

November 21, 2024
Autores: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI

Resumo

A Aprendizagem por Reforço (AR) formula matematicamente a tomada de decisão com o Processo de Decisão de Markov (PDM). Com os PDMs, os pesquisadores alcançaram avanços notáveis em diversos domínios, incluindo jogos, robótica e modelos de linguagem. Este artigo busca uma nova possibilidade, a Aprendizagem por Reforço em Linguagem Natural (ARLN), estendendo o PDM tradicional para o espaço de representação baseado em linguagem natural. Especificamente, a ARLN redefine de forma inovadora os princípios da AR, incluindo objetivos da tarefa, política, função de valor, equação de Bellman e iteração de política, em seus equivalentes linguísticos. Com os recentes avanços em grandes modelos de linguagem (GLLs), a ARLN pode ser implementada na prática para alcançar melhorias de política e valor semelhantes à AR, seja por meio de estímulo puro ou treinamento baseado em gradiente. Experimentos em jogos de Labirinto, Breakthrough e Jogo da Velha demonstram a eficácia, eficiência e interpretabilidade do framework ARLN em diversos casos de uso. Nosso código será disponibilizado em https://github.com/waterhorse1/Natural-language-RL.
English
Reinforcement Learning (RL) mathematically formulates decision-making with Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable breakthroughs across various domains, including games, robotics, and language models. This paper seeks a new possibility, Natural Language Reinforcement Learning (NLRL), by extending traditional MDP to natural language-based representation space. Specifically, NLRL innovatively redefines RL principles, including task objectives, policy, value function, Bellman equation, and policy iteration, into their language counterparts. With recent advancements in large language models (LLMs), NLRL can be practically implemented to achieve RL-like policy and value improvement by either pure prompting or gradient-based training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games demonstrate the effectiveness, efficiency, and interpretability of the NLRL framework among diverse use cases. Our code will be released at https://github.com/waterhorse1/Natural-language-RL.

Summary

AI-Generated Summary

PDF252November 22, 2024