AgentGym-RL: Entrenamiento de Agentes LLM para la Toma de Decisiones de Horizonte Largo mediante Aprendizaje por Refuerzo Multiturno
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
September 10, 2025
Autores: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
Resumen
El desarrollo de agentes autónomos basados en LLM (Modelos de Lenguaje de Gran Escala) capaces de tomar una serie de decisiones inteligentes para resolver tareas complejas del mundo real es una frontera en rápida evolución. Al igual que el desarrollo cognitivo humano, se espera que estos agentes adquieran conocimientos y habilidades a través de la exploración y la interacción con el entorno. A pesar de los avances, la comunidad aún carece de un marco unificado de aprendizaje por refuerzo (RL) interactivo que pueda entrenar eficazmente a estos agentes desde cero —sin depender del ajuste fino supervisado (SFT)— en entornos diversos y realistas. Para cerrar esta brecha, presentamos AgentGym-RL, un nuevo marco para entrenar agentes LLM en la toma de decisiones interactivas de múltiples turnos mediante RL. Este marco cuenta con una arquitectura modular y desacoplada, lo que garantiza una alta flexibilidad y extensibilidad. Abarca una amplia variedad de escenarios del mundo real y es compatible con los principales algoritmos de RL. Además, proponemos ScalingInter-RL, un enfoque de entrenamiento diseñado para equilibrar la exploración-explotación y optimizar de manera estable el RL. En las etapas iniciales, enfatiza la explotación al limitar el número de interacciones, y gradualmente se inclina hacia la exploración con horizontes más amplios para fomentar estrategias diversas de resolución de problemas. De esta manera, el agente desarrolla comportamientos más variados y es menos propenso a colapsar en horizontes largos. Realizamos extensos experimentos para validar la estabilidad y efectividad tanto del marco AgentGym-RL como del enfoque ScalingInter-RL. Nuestros agentes igualan o superan a modelos comerciales en 27 tareas en diversos entornos. Ofrecemos ideas clave y liberaremos el marco completo de AgentGym-RL —incluyendo código y conjuntos de datos— para empoderar a la comunidad de investigación en el desarrollo de la próxima generación de agentes inteligentes.
English
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.