AgentGym-RL: Het trainen van LLM-agenten voor langetermijnbesluitvorming via multi-turn reinforcement learning
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
September 10, 2025
Auteurs: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
Samenvatting
Het ontwikkelen van autonome LLM-agenten die in staat zijn een reeks intelligente beslissingen te nemen om complexe, real-world taken op te lossen, is een snel evoluerend onderzoeksgebied. Net als bij menselijke cognitieve ontwikkeling, wordt verwacht dat agenten kennis en vaardigheden verwerven door exploratie en interactie met de omgeving. Ondanks vooruitgang ontbreekt het de gemeenschap nog aan een uniform, interactief reinforcement learning (RL) raamwerk dat dergelijke agenten effectief van scratch kan trainen — zonder te vertrouwen op supervised fine-tuning (SFT) — in diverse en realistische omgevingen. Om deze kloof te overbruggen, introduceren we AgentGym-RL, een nieuw raamwerk om LLM-agenten te trainen voor multi-turn interactieve besluitvorming via RL. Het raamwerk kenmerkt zich door een modulaire en ontkoppelde architectuur, wat zorgt voor hoge flexibiliteit en uitbreidbaarheid. Het omvat een breed scala aan real-world scenario's en ondersteunt mainstream RL-algoritmen. Bovendien stellen we ScalingInter-RL voor, een trainingsbenadering die is ontworpen voor een balans tussen exploratie en exploitatie en stabiele RL-optimalisatie. In de vroege fasen legt het de nadruk op exploitatie door het aantal interacties te beperken, en verschuift het geleidelijk naar exploratie met grotere horizonnen om diverse probleemoplossende strategieën aan te moedigen. Op deze manier ontwikkelt de agent meer diverse gedragingen en is hij minder gevoelig voor instorting bij lange horizonnen. We voeren uitgebreide experimenten uit om de stabiliteit en effectiviteit van zowel het AgentGym-RL raamwerk als de ScalingInter-RL benadering te valideren. Onze agenten evenaren of overtreffen commerciële modellen op 27 taken in diverse omgevingen. We bieden belangrijke inzichten en zullen het complete AgentGym-RL raamwerk — inclusief code en datasets — open source maken om de onderzoeksgemeenschap in staat te stellen de volgende generatie intelligente agenten te ontwikkelen.
English
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.