ChatPaper.aiChatPaper

Agent-R1 : Formation d'agents LLM puissants par apprentissage par renforcement de bout en bout

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

November 18, 2025
papers.authors: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) sont de plus en plus explorés pour la construction d'Agents capables d'interagir activement avec leur environnement (par exemple, via l'utilisation d'outils) pour résoudre des problèmes complexes. L'apprentissage par renforcement (RL) est considéré comme une technologie clé au potentiel significatif pour entraîner de tels Agents ; cependant, l'application efficace du RL aux Agents LLM en est encore à ses débuts et fait face à des défis considérables. Actuellement, ce domaine émergent manque d'une exploration approfondie des approches de RL spécifiquement adaptées au contexte des Agents LLM, ainsi que d'une pénurie de cadres d'entraînement flexibles et facilement extensibles conçus à cet effet. Pour contribuer à l'avancement de ce domaine, cet article revient d'abord sur les méthodologies d'Apprentissage par Renforcement pour les Agents LLM et les clarifie en étendant systématiquement le cadre des Processus de Décision Markoviens (MDP) pour définir de manière exhaustive les composants clés d'un Agent LLM. Deuxièmement, nous présentons Agent-R1, un cadre d'entraînement modulaire, flexible et convivial pour les Agents LLM basés sur le RL, conçu pour une adaptation simple à divers scénarios de tâches et environnements interactifs. Nous avons mené des expériences sur des tâches de référence de Questions à Sauts Multiples, fournissant une validation initiale de l'efficacité de nos méthodes et cadre proposés.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.
PDF172December 1, 2025