AgentGym-RL : Entraînement d'agents LLM pour la prise de décision à long terme grâce à l'apprentissage par renforcement multi-tours
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
September 10, 2025
papers.authors: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
papers.abstract
Le développement d'agents LLM autonomes capables de prendre une série de décisions intelligentes pour résoudre des tâches complexes et réalistes constitue une frontière en évolution rapide. À l'instar du développement cognitif humain, ces agents sont censés acquérir des connaissances et des compétences par l'exploration et l'interaction avec leur environnement. Malgré les avancées, la communauté manque encore d'un cadre unifié d'apprentissage par renforcement interactif (RL) capable de former efficacement de tels agents à partir de zéro — sans recourir à un ajustement supervisé (SFT) — dans des environnements divers et réalistes. Pour combler cette lacune, nous présentons AgentGym-RL, un nouveau cadre destiné à entraîner des agents LLM pour la prise de décision interactive multi-tours via le RL. Ce cadre se distingue par une architecture modulaire et découplée, garantissant une grande flexibilité et extensibilité. Il englobe une variété de scénarios réalistes et prend en charge les principaux algorithmes de RL. Par ailleurs, nous proposons ScalingInter-RL, une approche d'entraînement conçue pour équilibrer exploration-exploitation et optimiser de manière stable le RL. Dans les premières phases, elle privilégie l'exploitation en limitant le nombre d'interactions, puis évolue progressivement vers l'exploration avec des horizons plus larges pour encourager des stratégies de résolution de problèmes diversifiées. Ainsi, l'agent développe des comportements plus variés et est moins susceptible de s'effondrer sur de longues durées. Nous menons des expériences approfondies pour valider la stabilité et l'efficacité du cadre AgentGym-RL ainsi que de l'approche ScalingInter-RL. Nos agents égalent ou surpassent les modèles commerciaux sur 27 tâches dans divers environnements. Nous partageons des insights clés et mettrons en open-source l'intégralité du cadre AgentGym-RL — incluant le code et les jeux de données — pour permettre à la communauté de recherche de développer la prochaine génération d'agents intelligents.
English
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.