ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage des agents par synthèse d'expériences

Scaling Agent Learning via Experience Synthesis

November 5, 2025
papers.authors: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

papers.abstract

Bien que l'apprentissage par renforcement (RL) puisse renforcer les capacités des agents basés sur des grands modèles de langage (LLM) en permettant une auto-amélioration par l'interaction, son adoption pratique reste difficile en raison du coût élevé des déploiements, de la diversité limitée des tâches, de signaux de récompense peu fiables et de la complexité infrastructurelle, autant de facteurs qui entravent la collecte de données d'expérience à grande échelle. Pour relever ces défis, nous présentons DreamGym, le premier cadre unifié conçu pour synthétiser des expériences diverses avec une approche scalable afin de permettre un entraînement RL en ligne efficace pour les agents autonomes. Plutôt que de dépendre de déploiements coûteux en environnement réel, DreamGym distille la dynamique de l'environnement en un modèle d'expérience basé sur le raisonnement qui déduit des transitions d'état cohérentes et des signaux de feedback via un raisonnement pas à pas, permettant ainsi une collecte scalable de déploiements d'agents pour le RL. Pour améliorer la stabilité et la qualité des transitions, DreamGym exploite un tampon de relecture d'expérience initialisé avec des données hors ligne du monde réel et continuellement enrichi par de nouvelles interactions pour soutenir activement l'entraînement de l'agent. Pour améliorer l'acquisition de connaissances, DreamGym génère de manière adaptative de nouvelles tâches qui challengent la politique actuelle de l'agent, permettant un apprentissage curriculaire en ligne plus efficace. Les expériences menées dans divers environnements et avec différentes architectures d'agents démontrent que DreamGym améliore substantiellement l'entraînement RL, à la fois dans des configurations entièrement synthétiques et dans des scénarios de transfert sim-to-real. Sur des tâches non optimisées pour le RL comme WebArena, DreamGym surpasse toutes les méthodes de référence de plus de 30%. Et dans des configurations adaptées au RL mais coûteuses, il atteint les performances de GRPO et PPO en utilisant uniquement des interactions synthétiques. Lors du transfert d'une politique entraînée exclusivement sur des expériences synthétiques vers un RL en environnement réel, DreamGym procure des gains de performance supplémentaires significatifs tout en nécessitant beaucoup moins d'interactions réelles, offrant ainsi une stratégie d'amorçage scalable pour le RL généraliste.
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025