ChatPaper.aiChatPaper

AgentGym-RL: Entrenamiento de Agentes LLM para la Toma de Decisiones de Horizonte Largo mediante Aprendizaje por Refuerzo Multiturno

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

September 10, 2025
Autores: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI

Resumen

El desarrollo de agentes autónomos basados en LLM (Modelos de Lenguaje de Gran Escala) capaces de tomar una serie de decisiones inteligentes para resolver tareas complejas del mundo real es una frontera en rápida evolución. Al igual que el desarrollo cognitivo humano, se espera que estos agentes adquieran conocimientos y habilidades a través de la exploración y la interacción con el entorno. A pesar de los avances, la comunidad aún carece de un marco unificado de aprendizaje por refuerzo (RL) interactivo que pueda entrenar eficazmente a estos agentes desde cero —sin depender del ajuste fino supervisado (SFT)— en entornos diversos y realistas. Para cerrar esta brecha, presentamos AgentGym-RL, un nuevo marco para entrenar agentes LLM en la toma de decisiones interactivas de múltiples turnos mediante RL. Este marco cuenta con una arquitectura modular y desacoplada, lo que garantiza una alta flexibilidad y extensibilidad. Abarca una amplia variedad de escenarios del mundo real y es compatible con los principales algoritmos de RL. Además, proponemos ScalingInter-RL, un enfoque de entrenamiento diseñado para equilibrar la exploración-explotación y optimizar de manera estable el RL. En las etapas iniciales, enfatiza la explotación al limitar el número de interacciones, y gradualmente se inclina hacia la exploración con horizontes más amplios para fomentar estrategias diversas de resolución de problemas. De esta manera, el agente desarrolla comportamientos más variados y es menos propenso a colapsar en horizontes largos. Realizamos extensos experimentos para validar la estabilidad y efectividad tanto del marco AgentGym-RL como del enfoque ScalingInter-RL. Nuestros agentes igualan o superan a modelos comerciales en 27 tareas en diversos entornos. Ofrecemos ideas clave y liberaremos el marco completo de AgentGym-RL —incluyendo código y conjuntos de datos— para empoderar a la comunidad de investigación en el desarrollo de la próxima generación de agentes inteligentes.
English
Developing autonomous LLM agents capable of making a series of intelligent decisions to solve complex, real-world tasks is a fast-evolving frontier. Like human cognitive development, agents are expected to acquire knowledge and skills through exploration and interaction with the environment. Despite advances, the community still lacks a unified, interactive reinforcement learning (RL) framework that can effectively train such agents from scratch -- without relying on supervised fine-tuning (SFT) -- across diverse and realistic environments. To bridge this gap, we introduce AgentGym-RL, a new framework to train LLM agents for multi-turn interactive decision-making through RL. The framework features a modular and decoupled architecture, ensuring high flexibility and extensibility. It encompasses a wide variety of real-world scenarios, and supports mainstream RL algorithms. Furthermore, we propose ScalingInter-RL, a training approach designed for exploration-exploitation balance and stable RL optimization. In early stages, it emphasizes exploitation by restricting the number of interactions, and gradually shifts towards exploration with larger horizons to encourage diverse problem-solving strategies. In this way, the agent develops more diverse behaviors and is less prone to collapse under long horizons. We perform extensive experiments to validate the stability and effectiveness of both the AgentGym-RL framework and the ScalingInter-RL approach. Our agents match or surpass commercial models on 27 tasks across diverse environments. We offer key insights and will open-source the complete AgentGym-RL framework -- including code and datasets -- to empower the research community in developing the next generation of intelligent agents.
PDF322September 11, 2025