AgentGym-RL: Treinamento de Agentes LLM para Tomada de Decisão de Longo Prazo por meio de Aprendizado por Reforço Multi-Turn
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
September 10, 2025
Autores: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
Resumo
O desenvolvimento de agentes de LLM autônomos capazes de tomar uma série de decisões inteligentes para resolver tarefas complexas do mundo real é uma fronteira em rápida evolução. Assim como no desenvolvimento cognitivo humano, espera-se que os agentes adquiram conhecimento e habilidades por meio da exploração e interação com o ambiente. Apesar dos avanços, a comunidade ainda carece de um framework unificado de aprendizado por reforço (RL) interativo que possa treinar efetivamente esses agentes do zero — sem depender de ajuste fino supervisionado (SFT) — em diversos ambientes realistas. Para preencher essa lacuna, introduzimos o AgentGym-RL, um novo framework para treinar agentes de LLM em tomadas de decisão interativas de múltiplos turnos por meio de RL. O framework apresenta uma arquitetura modular e desacoplada, garantindo alta flexibilidade e extensibilidade. Ele abrange uma ampla variedade de cenários do mundo real e suporta algoritmos de RL convencionais. Além disso, propomos o ScalingInter-RL, uma abordagem de treinamento projetada para equilibrar exploração-explotação e otimizar a estabilidade do RL. Nos estágios iniciais, ele enfatiza a exploração ao limitar o número de interações e, gradualmente, passa a priorizar a exploração com horizontes maiores para incentivar estratégias diversificadas de resolução de problemas. Dessa forma, o agente desenvolve comportamentos mais diversos e é menos propenso a falhar em horizontes longos. Realizamos experimentos extensivos para validar a estabilidade e eficácia tanto do framework AgentGym-RL quanto da abordagem ScalingInter-RL. Nossos agentes igualam ou superam modelos comerciais em 27 tarefas em diversos ambientes. Oferecemos insights importantes e disponibilizaremos o framework completo do AgentGym-RL — incluindo código e conjuntos de dados — em código aberto para capacitar a comunidade de pesquisa no desenvolvimento da próxima geração de agentes inteligentes.
English
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.