Schaalvergroting van Agentleren via Ervaring Synthese
Scaling Agent Learning via Experience Synthesis
November 5, 2025
Auteurs: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI
Samenvatting
Hoewel reinforcement learning (RL) grote taalmodel (LLM) agenten kan versterken door zelfverbetering via interactie mogelijk te maken, blijft de praktische toepassing ervan een uitdaging vanwege kostelijke rollouts, beperkte taakdiversiteit, onbetrouwbare beloningssignalen en infrastructurele complexiteit, wat allemaal de verzameling van schaalbare ervaringsdata belemmert. Om deze uitdagingen aan te pakken, introduceren we DreamGym, het eerste verenigde raamwerk dat ontworpen is om diverse ervaringen te synthetiseren met schaalbaarheid in gedachten, om effectieve online RL-training voor autonome agenten mogelijk te maken. In plaats van te vertrouwen op dure rollouts in echte omgevingen, destilleert DreamGym omgevingsdynamica in een op redenering gebaseerd ervaringsmodel dat consistente toestandsovergangen en feedbacksignalen afleidt via stapsgewijze redenering, waardoor schaalbare verzameling van agent-rollouts voor RL mogelijk wordt. Om de stabiliteit en kwaliteit van overgangen te verbeteren, benut DreamGym een ervaringsreplaybuffer die geïnitialiseerd is met offline real-world data en continu verrijkt wordt met nieuwe interacties om de agenttraining actief te ondersteunen. Om kennisverwerving te verbeteren, genereert DreamGym adaptief nieuwe taken die het huidige agent-beleid uitdagen, waardoor effectiever online curriculum learning mogelijk wordt. Experimenten in diverse omgevingen en met verschillende agent-architecturen tonen aan dat DreamGym de RL-training aanzienlijk verbetert, zowel in volledig synthetische settings als in sim-to-real transfer scenario's. Voor niet-RL-gereed taken zoals WebArena presteert DreamGym meer dan 30% beter dan alle baseline-methoden. En in RL-gereed maar kostelijke settings evenaart het de prestaties van GRPO en PPO met uitsluitend synthetische interacties. Bij het overdragen van een beleid dat puur op synthetische ervaringen getraind is naar RL in een echte omgeving, levert DreamGym significante extra prestatieverbeteringen op terwijl het veel minder real-world interacties vereist, wat een schaalbare warm-startstrategie biedt voor algemeen toepasbare RL.
English
While reinforcement learning (RL) can empower large language model (LLM)
agents by enabling self-improvement through interaction, its practical adoption
remains challenging due to costly rollouts, limited task diversity, unreliable
reward signals, and infrastructure complexity, all of which obstruct the
collection of scalable experience data. To address these challenges, we
introduce DreamGym, the first unified framework designed to synthesize diverse
experiences with scalability in mind to enable effective online RL training for
autonomous agents. Rather than relying on expensive real-environment rollouts,
DreamGym distills environment dynamics into a reasoning-based experience model
that derives consistent state transitions and feedback signals through
step-by-step reasoning, enabling scalable agent rollout collection for RL. To
improve the stability and quality of transitions, DreamGym leverages an
experience replay buffer initialized with offline real-world data and
continuously enriched with fresh interactions to actively support agent
training. To improve knowledge acquisition, DreamGym adaptively generates new
tasks that challenge the current agent policy, enabling more effective online
curriculum learning. Experiments across diverse environments and agent
backbones demonstrate that DreamGym substantially improves RL training, both in
fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready
tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in
RL-ready but costly settings, it matches GRPO and PPO performance using only
synthetic interactions. When transferring a policy trained purely on synthetic
experiences to real-environment RL, DreamGym yields significant additional
performance gains while requiring far fewer real-world interactions, providing
a scalable warm-start strategy for general-purpose RL.