Масштабирование обучения агентов за счет синтеза опыта
Scaling Agent Learning via Experience Synthesis
November 5, 2025
Авторы: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI
Аннотация
Хотя обучение с подкреплением (RL) позволяет расширить возможности агентов на основе больших языковых моделей (LLM) за счет самообучения через взаимодействие, его практическое внедрение остается сложной задачей из-за дорогостоящих прогонов, ограниченного разнообразия задач, ненадежных сигналов вознаграждения и сложности инфраструктуры, что препятствует сбору масштабируемых данных опыта. Для решения этих проблем мы представляем DreamGym — первую унифицированную платформу, разработанную для синтеза разнообразного опыта с учетом масштабируемости, чтобы обеспечить эффективное онлайн-обучение с подкреплением для автономных агентов. Вместо reliance на дорогостоящие прогоны в реальной среде DreamGym абстрагирует динамику среды в модель опыта на основе рассуждений, которая выводит последовательные переходы между состояниями и сигналы обратной связи через пошаговые логические цепочки, обеспечивая сбор масштабируемых прогонов агента для RL. Для повышения стабильности и качества переходов DreamGym использует буфер воспроизведения опыта, инициализированный оффлайн-данными из реального мира и постоянно пополняемый новыми взаимодействиями для активной поддержки обучения агента. Для улучшения приобретения знаний DreamGym адаптивно генерирует новые задачи, бросающие вызов текущей политике агента, обеспечивая более эффективное онлайн-обучение по учебному плану. Эксперименты в различных средах и на различных архитектурах агентов демонстрируют, что DreamGym существенно улучшает RL-обучение как в полностью синтетических условиях, так и в сценариях переноса из симуляции в реальность. На задачах, не готовых для RL, таких как WebArena, DreamGym превосходит все базовые методы более чем на 30%. А в условиях, готовых для RL, но дорогостоящих, он соответствует производительности GRPO и PPO, используя только синтетические взаимодействия. При переносе политики, обученной исключительно на синтетическом опыте, в RL в реальной среде DreamGym обеспечивает значительный дополнительный прирост производительности, требуя при этом гораздо меньше реальных взаимодействий, предоставляя масштабируемую стратегию предварительной подготовки для RL общего назначения.
English
While reinforcement learning (RL) can empower large language model (LLM)
agents by enabling self-improvement through interaction, its practical adoption
remains challenging due to costly rollouts, limited task diversity, unreliable
reward signals, and infrastructure complexity, all of which obstruct the
collection of scalable experience data. To address these challenges, we
introduce DreamGym, the first unified framework designed to synthesize diverse
experiences with scalability in mind to enable effective online RL training for
autonomous agents. Rather than relying on expensive real-environment rollouts,
DreamGym distills environment dynamics into a reasoning-based experience model
that derives consistent state transitions and feedback signals through
step-by-step reasoning, enabling scalable agent rollout collection for RL. To
improve the stability and quality of transitions, DreamGym leverages an
experience replay buffer initialized with offline real-world data and
continuously enriched with fresh interactions to actively support agent
training. To improve knowledge acquisition, DreamGym adaptively generates new
tasks that challenge the current agent policy, enabling more effective online
curriculum learning. Experiments across diverse environments and agent
backbones demonstrate that DreamGym substantially improves RL training, both in
fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready
tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in
RL-ready but costly settings, it matches GRPO and PPO performance using only
synthetic interactions. When transferring a policy trained purely on synthetic
experiences to real-environment RL, DreamGym yields significant additional
performance gains while requiring far fewer real-world interactions, providing
a scalable warm-start strategy for general-purpose RL.