ChatPaper.aiChatPaper

Aprendizaje por Refuerzo en Lenguaje Natural

Natural Language Reinforcement Learning

November 21, 2024
Autores: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI

Resumen

El Aprendizaje por Refuerzo (RL) formula matemáticamente la toma de decisiones con Proceso de Decisión de Markov (MDP). Con MDPs, los investigadores han logrado avances notables en diversos campos, incluidos juegos, robótica y modelos de lenguaje. Este documento busca una nueva posibilidad, Aprendizaje por Refuerzo de Lenguaje Natural (NLRL), al extender el MDP tradicional al espacio de representación basado en lenguaje natural. Específicamente, NLRL redefine de manera innovadora los principios de RL, incluidos los objetivos de la tarea, la política, la función de valor, la ecuación de Bellman y la iteración de políticas, en sus contrapartes lingüísticas. Con los avances recientes en modelos de lenguaje grandes (LLMs), NLRL puede implementarse prácticamente para lograr mejoras en la política y el valor al estilo de RL mediante el uso de indicaciones puras o entrenamiento basado en gradientes. Experimentos realizados en juegos de Laberinto, Breakthrough y Gato demuestran la efectividad, eficiencia e interpretabilidad del marco NLRL en diversos casos de uso. Nuestro código será publicado en https://github.com/waterhorse1/Natural-language-RL.
English
Reinforcement Learning (RL) mathematically formulates decision-making with Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable breakthroughs across various domains, including games, robotics, and language models. This paper seeks a new possibility, Natural Language Reinforcement Learning (NLRL), by extending traditional MDP to natural language-based representation space. Specifically, NLRL innovatively redefines RL principles, including task objectives, policy, value function, Bellman equation, and policy iteration, into their language counterparts. With recent advancements in large language models (LLMs), NLRL can be practically implemented to achieve RL-like policy and value improvement by either pure prompting or gradient-based training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games demonstrate the effectiveness, efficiency, and interpretability of the NLRL framework among diverse use cases. Our code will be released at https://github.com/waterhorse1/Natural-language-RL.

Summary

AI-Generated Summary

PDF252November 22, 2024