Skalierung von Agentenlernen durch Erfahrungssynthese
Scaling Agent Learning via Experience Synthesis
November 5, 2025
papers.authors: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI
papers.abstract
Während Reinforcement Learning (RL) große Sprachmodell-Agenten (LLM) durch selbstgesteuerte Verbesserung via Interaktion befähigen kann, bleibt seine praktische Anwendung aufgrund kostspieliger Rollouts, begrenzter Aufgabenvielfalt, unzuverlässiger Belohnungssignale und infrastruktureller Komplexität herausfordernd. All diese Faktoren behindern die Erhebung skalierbarer Erfahrungsdaten. Um diese Herausforderungen zu adressieren, stellen wir DreamGym vor, den ersten vereinheitlichten Rahmen, der entwickelt wurde, um diverse Erfahrungen mit Skalierbarkeit im Blick zu synthetisieren und so effektives Online-RL-Training für autonome Agenten zu ermöglichen. Anstatt auf teure Rollouts in realen Umgebungen angewiesen zu sein, destilliert DreamGym Umgebungsdynamiken in ein auf Schlussfolgerungen basierendes Erfahrungsmodell, das konsistente Zustandsübergänge und Feedback-Signale durch schrittweise Reasoning-Prozesse ableitet. Dies ermöglicht die Sammlung skalierbarer Agenten-Rollouts für RL. Um die Stabilität und Qualität der Zustandsübergänge zu verbessern, nutzt DreamGym einen Experience-Replay-Puffer, der mit Offline-Daten aus der realen Welt initialisiert und kontinuierlich mit neuen Interaktionen angereichert wird, um das Agententraining aktiv zu unterstützen. Um den Wissenserwerb zu verbessern, generiert DreamGym adaptiv neue Aufgaben, die die aktuelle Agenten-Policy herausfordern, und ermöglicht so ein effektiveres Online-Curriculum-Learning. Experimente in diversen Umgebungen und mit verschiedenen Agenten-Architekturen zeigen, dass DreamGym das RL-Training erheblich verbessert, sowohl in vollständig synthetischen Settings als auch in Sim-to-Real-Transfer-Szenarien. Bei nicht RL-fähigen Aufgaben wie WebArena übertrifft DreamGym alle Baseline-Methoden um über 30%. In RL-fähigen, aber kostspieligen Umgebungen erreicht es die Leistung von GRPO und PPO ausschließlich mit synthetischen Interaktionen. Bei der Übertragung einer Policy, die rein auf synthetischen Erfahrungen trainiert wurde, auf RL in realen Umgebungen, erzielt DreamGym signifikante zusätzliche Leistungssteigerungen, während weit weniger reale Interaktionen benötigt werden. Dies bietet eine skalierbare Warm-Start-Strategie für generalisiertes RL.
English
While reinforcement learning (RL) can empower large language model (LLM)
agents by enabling self-improvement through interaction, its practical adoption
remains challenging due to costly rollouts, limited task diversity, unreliable
reward signals, and infrastructure complexity, all of which obstruct the
collection of scalable experience data. To address these challenges, we
introduce DreamGym, the first unified framework designed to synthesize diverse
experiences with scalability in mind to enable effective online RL training for
autonomous agents. Rather than relying on expensive real-environment rollouts,
DreamGym distills environment dynamics into a reasoning-based experience model
that derives consistent state transitions and feedback signals through
step-by-step reasoning, enabling scalable agent rollout collection for RL. To
improve the stability and quality of transitions, DreamGym leverages an
experience replay buffer initialized with offline real-world data and
continuously enriched with fresh interactions to actively support agent
training. To improve knowledge acquisition, DreamGym adaptively generates new
tasks that challenge the current agent policy, enabling more effective online
curriculum learning. Experiments across diverse environments and agent
backbones demonstrate that DreamGym substantially improves RL training, both in
fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready
tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in
RL-ready but costly settings, it matches GRPO and PPO performance using only
synthetic interactions. When transferring a policy trained purely on synthetic
experiences to real-environment RL, DreamGym yields significant additional
performance gains while requiring far fewer real-world interactions, providing
a scalable warm-start strategy for general-purpose RL.