AgentGym-RL: Training von LLM-Agenten für langfristige Entscheidungsfindung durch Multi-Turn Reinforcement Learning
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
September 10, 2025
papers.authors: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
papers.abstract
Die Entwicklung autonomer LLM-Agenten, die in der Lage sind, eine Reihe intelligenter Entscheidungen zu treffen, um komplexe, realweltliche Aufgaben zu lösen, ist eine sich schnell entwickelnde Forschungsfront. Ähnlich wie die kognitive Entwicklung beim Menschen wird erwartet, dass Agenten Wissen und Fähigkeiten durch Exploration und Interaktion mit der Umwelt erwerben. Trotz Fortschritten fehlt der Gemeinschaft noch ein einheitliches, interaktives Reinforcement-Learning (RL)-Framework, das solche Agenten effektiv von Grund auf – ohne auf überwachtes Fein-Tuning (SFT) angewiesen zu sein – in diversen und realistischen Umgebungen trainieren kann. Um diese Lücke zu schließen, stellen wir AgentGym-RL vor, ein neues Framework zur Ausbildung von LLM-Agenten für mehrstufige interaktive Entscheidungsfindung durch RL. Das Framework zeichnet sich durch eine modulare und entkoppelte Architektur aus, die hohe Flexibilität und Erweiterbarkeit gewährleistet. Es umfasst eine Vielzahl realweltlicher Szenarien und unterstützt gängige RL-Algorithmen. Darüber hinaus schlagen wir ScalingInter-RL vor, einen Trainingsansatz, der auf die Balance zwischen Exploration und Exploitation sowie auf stabile RL-Optimierung abzielt. In frühen Phasen betont er die Exploitation durch die Beschränkung der Anzahl von Interaktionen und geht schrittweise zu einer stärkeren Exploration mit größeren Horizonten über, um vielfältige Problemlösungsstrategien zu fördern. Auf diese Weise entwickelt der Agent diversere Verhaltensweisen und ist weniger anfällig für Zusammenbrüche bei langen Horizonten. Wir führen umfangreiche Experimente durch, um die Stabilität und Effektivität sowohl des AgentGym-RL-Frameworks als auch des ScalingInter-RL-Ansatzes zu validieren. Unsere Agenten erreichen oder übertreffen kommerzielle Modelle in 27 Aufgaben über verschiedene Umgebungen hinweg. Wir bieten wichtige Einblicke und werden das vollständige AgentGym-RL-Framework – einschließlich Code und Datensätzen – als Open Source bereitstellen, um die Forschungsgemeinschaft bei der Entwicklung der nächsten Generation intelligenter Agenten zu unterstützen.
English
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.