ChatPaper.aiChatPaper

Agente-R1: Entrenamiento de Agentes de LLM Potentes con Aprendizaje por Refuerzo de Extremo a Extremo

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

November 18, 2025
Autores: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) son cada vez más explorados para construir Agentes capaces de interactuar activamente con el entorno (por ejemplo, mediante el uso de herramientas) para resolver problemas complejos. El Aprendizaje por Refuerzo (RL) se considera una tecnología clave con un potencial significativo para entrenar dichos Agentes; sin embargo, la aplicación efectiva de RL a los Agentes basados en LLM aún se encuentra en sus etapas iniciales y enfrenta desafíos considerables. Actualmente, este campo emergente carece de una exploración en profundidad de los enfoques de RL específicamente adaptados al contexto de los Agentes LLM, junto con una escasez de marcos de entrenamiento flexibles y fácilmente extensibles diseñados para este propósito. Para ayudar a avanzar en esta área, este artículo primero revisa y clarifica las metodologías de Aprendizaje por Refuerzo para Agentes LLM mediante la extensión sistemática del marco de Procesos de Decisión de Markov (MDP) para definir de manera integral los componentes clave de un Agente LLM. En segundo lugar, presentamos Agent-R1, un marco de entrenamiento modular, flexible y fácil de usar para Agentes LLM basados en RL, diseñado para una adaptación sencilla a diversos escenarios de tareas y entornos interactivos. Realizamos experimentos en tareas de referencia de QA Multihop, proporcionando una validación inicial de la efectividad de nuestros métodos y marco propuestos.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.
PDF172December 1, 2025