AgentGym-RL: Addestramento di Agenti LLM per il Processo Decisionale a Lungo Termine attraverso l'Apprendimento per Rinforzo Multi-Turn

Abstract

Lo sviluppo di agenti LLM autonomi in grado di prendere una serie di decisioni intelligenti per risolvere compiti complessi e reali rappresenta una frontiera in rapida evoluzione. Similmente allo sviluppo cognitivo umano, ci si aspetta che questi agenti acquisiscano conoscenze e competenze attraverso l'esplorazione e l'interazione con l'ambiente. Nonostante i progressi, la comunità manca ancora di un framework unificato e interattivo di apprendimento per rinforzo (RL) che possa addestrare efficacemente tali agenti da zero — senza fare affidamento su un affinamento supervisionato (SFT) — in ambienti diversi e realistici. Per colmare questa lacuna, introduciamo AgentGym-RL, un nuovo framework per addestrare agenti LLM nel processo decisionale interattivo multi-turn attraverso l'RL. Il framework presenta un'architettura modulare e disaccoppiata, garantendo alta flessibilità e estensibilità. Include una vasta gamma di scenari reali e supporta gli algoritmi RL principali. Inoltre, proponiamo ScalingInter-RL, un approccio di addestramento progettato per bilanciare esplorazione e sfruttamento e ottimizzare stabilmente l'RL. Nelle fasi iniziali, enfatizza lo sfruttamento limitando il numero di interazioni, per poi spostarsi gradualmente verso l'esplorazione con orizzonti più ampi, incoraggiando strategie di problem-solving diversificate. In questo modo, l'agente sviluppa comportamenti più vari ed è meno soggetto a collassare su orizzonti lunghi. Abbiamo condotto esperimenti estesi per validare la stabilità e l'efficacia sia del framework AgentGym-RL che dell'approccio ScalingInter-RL. I nostri agenti eguagliano o superano modelli commerciali in 27 task attraverso ambienti diversi. Offriamo intuizioni chiave e renderemo open-source l'intero framework AgentGym-RL — inclusi codice e dataset — per permettere alla comunità di ricerca di sviluppare la prossima generazione di agenti intelligenti.

English

Developing autonomous LLM agents capable of making a series of intelligent decisions to solve complex, real-world tasks is a fast-evolving frontier. Like human cognitive development, agents are expected to acquire knowledge and skills through exploration and interaction with the environment. Despite advances, the community still lacks a unified, interactive reinforcement learning (RL) framework that can effectively train such agents from scratch -- without relying on supervised fine-tuning (SFT) -- across diverse and realistic environments. To bridge this gap, we introduce AgentGym-RL, a new framework to train LLM agents for multi-turn interactive decision-making through RL. The framework features a modular and decoupled architecture, ensuring high flexibility and extensibility. It encompasses a wide variety of real-world scenarios, and supports mainstream RL algorithms. Furthermore, we propose ScalingInter-RL, a training approach designed for exploration-exploitation balance and stable RL optimization. In early stages, it emphasizes exploitation by restricting the number of interactions, and gradually shifts towards exploration with larger horizons to encourage diverse problem-solving strategies. In this way, the agent develops more diverse behaviors and is less prone to collapse under long horizons. We perform extensive experiments to validate the stability and effectiveness of both the AgentGym-RL framework and the ScalingInter-RL approach. Our agents match or surpass commercial models on 27 tasks across diverse environments. We offer key insights and will open-source the complete AgentGym-RL framework -- including code and datasets -- to empower the research community in developing the next generation of intelligent agents.

AgentGym-RL: Addestramento di Agenti LLM per il Processo Decisionale a Lungo Termine attraverso l'Apprendimento per Rinforzo Multi-Turn

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Abstract

Support