ChatPaper.aiChatPaper

Schaalvergroting van Agentleren via Ervaring Synthese

Scaling Agent Learning via Experience Synthesis

November 5, 2025
Auteurs: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

Samenvatting

Hoewel reinforcement learning (RL) grote taalmodel (LLM) agenten kan versterken door zelfverbetering via interactie mogelijk te maken, blijft de praktische toepassing ervan een uitdaging vanwege kostelijke rollouts, beperkte taakdiversiteit, onbetrouwbare beloningssignalen en infrastructurele complexiteit, wat allemaal de verzameling van schaalbare ervaringsdata belemmert. Om deze uitdagingen aan te pakken, introduceren we DreamGym, het eerste verenigde raamwerk dat ontworpen is om diverse ervaringen te synthetiseren met schaalbaarheid in gedachten, om effectieve online RL-training voor autonome agenten mogelijk te maken. In plaats van te vertrouwen op dure rollouts in echte omgevingen, destilleert DreamGym omgevingsdynamica in een op redenering gebaseerd ervaringsmodel dat consistente toestandsovergangen en feedbacksignalen afleidt via stapsgewijze redenering, waardoor schaalbare verzameling van agent-rollouts voor RL mogelijk wordt. Om de stabiliteit en kwaliteit van overgangen te verbeteren, benut DreamGym een ervaringsreplaybuffer die geïnitialiseerd is met offline real-world data en continu verrijkt wordt met nieuwe interacties om de agenttraining actief te ondersteunen. Om kennisverwerving te verbeteren, genereert DreamGym adaptief nieuwe taken die het huidige agent-beleid uitdagen, waardoor effectiever online curriculum learning mogelijk wordt. Experimenten in diverse omgevingen en met verschillende agent-architecturen tonen aan dat DreamGym de RL-training aanzienlijk verbetert, zowel in volledig synthetische settings als in sim-to-real transfer scenario's. Voor niet-RL-gereed taken zoals WebArena presteert DreamGym meer dan 30% beter dan alle baseline-methoden. En in RL-gereed maar kostelijke settings evenaart het de prestaties van GRPO en PPO met uitsluitend synthetische interacties. Bij het overdragen van een beleid dat puur op synthetische ervaringen getraind is naar RL in een echte omgeving, levert DreamGym significante extra prestatieverbeteringen op terwijl het veel minder real-world interacties vereist, wat een schaalbare warm-startstrategie biedt voor algemeen toepasbare RL.
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025