Обучение с подкреплением на естественном языке
Natural Language Reinforcement Learning
November 21, 2024
Авторы: Xidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) математически формулирует процесс принятия решений с помощью процесса принятия решений Маркова (Markov Decision Process, MDP). С помощью MDP исследователи достигли значительных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность, обучение с подкреплением на естественном языке (Natural Language Reinforcement Learning, NLRL), путем расширения традиционного MDP до пространства представления на естественном языке. Конкретно, NLRL инновационно переопределяет принципы RL, включая цели задачи, политику, функцию ценности, уравнение Беллмана и итерацию политики, в их языковые аналоги. С учетом последних достижений в области больших языковых моделей (Large Language Models, LLM), NLRL может быть практически реализовано для достижения улучшения политики и функции ценности, аналогичных RL, путем чистого подсказывания или обучения на основе градиентов. Эксперименты на играх Maze, Breakthrough и Крестики-нолики демонстрируют эффективность, эффективность и интерпретируемость фреймворка NLRL среди различных сценариев использования. Наш код будет опубликован на https://github.com/waterhorse1/Natural-language-RL.
English
Reinforcement Learning (RL) mathematically formulates decision-making with
Markov Decision Process (MDP). With MDPs, researchers have achieved remarkable
breakthroughs across various domains, including games, robotics, and language
models. This paper seeks a new possibility, Natural Language Reinforcement
Learning (NLRL), by extending traditional MDP to natural language-based
representation space. Specifically, NLRL innovatively redefines RL principles,
including task objectives, policy, value function, Bellman equation, and policy
iteration, into their language counterparts. With recent advancements in large
language models (LLMs), NLRL can be practically implemented to achieve RL-like
policy and value improvement by either pure prompting or gradient-based
training. Experiments over Maze, Breakthrough, and Tic-Tac-Toe games
demonstrate the effectiveness, efficiency, and interpretability of the NLRL
framework among diverse use cases. Our code will be released at
https://github.com/waterhorse1/Natural-language-RL.Summary
AI-Generated Summary