ChatPaper.aiChatPaper

経験合成によるエージェント学習のスケーリング

Scaling Agent Learning via Experience Synthesis

November 5, 2025
著者: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

要旨

強化学習(RL)は対話を通じた自己改善により大規模言語モデル(LLM)エージェントを強化できる一方で、高コストなロールアウト、限定的なタスク多様性、信頼性の低い報酬信号、インフラの複雑さといった要因が、スケーラブルな経験データ収集を阻害し、実用化には課題が残っている。これらの課題に対処するため、我々は自律エージェントの効果的なオンラインRL訓練を可能にする、スケーラビリティを考慮して多様な経験を合成する初の統一フレームワーク「DreamGym」を提案する。DreamGymは高価な実環境ロールアウトに依存する代わりに、環境ダイナミクスを推論ベースの経験モデルに蒸留し、段階的な推論を通じて一貫性のある状態遷移とフィードバック信号を導出することで、RL向けのスケーラブルなエージェントロールアウト収集を実現する。遷移の安定性と品質を向上させるため、DreamGymはオフライン実世界データで初期化された経験再生バッファを活用し、新たな対話で継続的に拡充することで、エージェント訓練を能動的に支援する。知識獲得を改善するため、DreamGymは現在のエージェント方策に挑戦する新規タスクを適応的に生成し、より効果的なオンラインカリキュラム学習を可能にする。多様な環境とエージェント基盤を用いた実験により、DreamGymが完全合成設定およびシミュレーション-to-実環境転移シナリオの両方においてRL訓練を大幅に改善することが実証された。WebArenaのような非RL対応タスクでは、DreamGymは全てのベースラインを30%以上上回る性能を達成。またRL対応だが高コストな設定では、合成対話のみを用いてGRPOおよびPPOの性能と同等の結果を示した。純粋に合成経験で訓練した方針を実環境RLに転移する際、DreamGymは実世界対話を大幅に削減しつつ顕著な追加性能向上をもたらし、汎用RLのためのスケーラブルなウォームスタート戦略を提供する。
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025