ChatPaper.aiChatPaper

Scalare l'Apprendimento degli Agenti tramite Sintesi di Esperienze

Scaling Agent Learning via Experience Synthesis

November 5, 2025
Autori: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

Abstract

Sebbene l'apprendimento per rinforzo (RL) possa potenziare gli agenti basati su grandi modelli linguistici (LLM) consentendo l'auto-miglioramento attraverso l'interazione, la sua adozione pratica rimane impegnativa a causa dei rollout costosi, della limitata diversità dei compiti, dei segnali di ricompensa inaffidabili e della complessità infrastrutturale, tutti fattori che ostacolano la raccolta di dati esperienziali scalabili. Per affrontare queste sfide, introduciamo DreamGym, il primo framework unificato progettato per sintetizzare esperienze diversificate con scalabilità in mente, al fine di abilitare un efficace addestramento RL online per agenti autonomi. Invece di affidarsi a costosi rollout in ambienti reali, DreamGym distilla le dinamiche ambientali in un modello esperienziale basato sul ragionamento che deriva transizioni di stato coerenti e segnali di feedback attraverso un ragionamento passo-passo, consentendo una raccolta scalabile di rollout dell'agente per l'RL. Per migliorare la stabilità e la qualità delle transizioni, DreamGym sfrutta un buffer di replay esperienziale inizializzato con dati offline del mondo reale e continuamente arricchito con nuove interazioni per supportare attivamente l'addestramento dell'agente. Per migliorare l'acquisizione di conoscenza, DreamGym genera in modo adattivo nuovi compiti che sfidano la politica corrente dell'agente, abilitando un apprendimento curriculare online più efficace. Esperimenti condotti in vari ambienti e con diverse architetture di agenti dimostrano che DreamGym migliora sostanzialmente l'addestramento RL, sia in contesti completamente sintetici che in scenari di trasferimento sim-to-real. Su compiti non pronti per l'RL come WebArena, DreamGym supera tutte le baseline di oltre il 30%. E in contesti pronti per l'RL ma costosi, eguaglia le prestazioni di GRPO e PPO utilizzando esclusivamente interazioni sintetiche. Quando si trasferisce una politica addestrata puramente su esperienze sintetiche all'RL in ambiente reale, DreamGym produce significativi guadagni prestazionali aggiuntivi richiedendo molte meno interazioni nel mondo reale, fornendo una strategia di warm-start scalabile per l'RL a scopo generale.
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025