AgentGym-RL: Обучение агентов на основе больших языковых моделей для принятия решений в долгосрочной перспективе с использованием многошагового обучения с подкреплением
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
September 10, 2025
Авторы: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
cs.AI
Аннотация
Разработка автономных агентов на основе больших языковых моделей (LLM), способных принимать серию интеллектуальных решений для решения сложных задач в реальном мире, представляет собой быстро развивающуюся область. Подобно когнитивному развитию человека, ожидается, что такие агенты будут приобретать знания и навыки через исследование и взаимодействие с окружающей средой. Несмотря на прогресс, сообществу до сих пор не хватает унифицированной интерактивной среды для обучения с подкреплением (RL), которая могла бы эффективно обучать таких агентов с нуля — без использования контролируемой тонкой настройки (SFT) — в разнообразных и реалистичных условиях. Чтобы устранить этот пробел, мы представляем AgentGym-RL, новый фреймворк для обучения LLM-агентов многозадачному интерактивному принятию решений с помощью RL. Фреймворк обладает модульной и декомпозированной архитектурой, обеспечивая высокую гибкость и расширяемость. Он охватывает широкий спектр реальных сценариев и поддерживает основные алгоритмы RL. Кроме того, мы предлагаем ScalingInter-RL, подход к обучению, разработанный для баланса между исследованием и эксплуатацией, а также стабильной оптимизации RL. На ранних этапах он делает акцент на эксплуатации, ограничивая количество взаимодействий, а затем постепенно смещается в сторону исследования с увеличением горизонта планирования, чтобы стимулировать разнообразие стратегий решения задач. Таким образом, агент развивает более разнообразное поведение и становится менее склонным к сбоям при длительных горизонтах. Мы проводим обширные эксперименты, чтобы подтвердить стабильность и эффективность как фреймворка AgentGym-RL, так и подхода ScalingInter-RL. Наши агенты соответствуют или превосходят коммерческие модели на 27 задачах в различных средах. Мы делимся ключевыми инсайтами и планируем открыть исходный код полного фреймворка AgentGym-RL, включая код и наборы данных, чтобы дать исследовательскому сообществу возможность разрабатывать следующее поколение интеллектуальных агентов.
English
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.