ChatPaper.aiChatPaper

Escalonamento do Aprendizado de Agentes por meio de Síntese de Experiências

Scaling Agent Learning via Experience Synthesis

November 5, 2025
Autores: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

Resumo

Embora o aprendizado por reforço (RL) possa capacitar agentes de modelos de linguagem grande (LLM) ao permitir a autoaprimoração por meio da interação, sua adoção prática permanece desafiadora devido à execução custosa de rollouts, diversidade limitada de tarefas, sinais de recompensa não confiáveis e complexidade de infraestrutura, fatores que obstruem a coleta de dados de experiência escaláveis. Para enfrentar esses desafios, introduzimos o DreamGym, o primeiro framework unificado projetado para sintetizar experiências diversas com escalabilidade em mente, permitindo o treinamento RL online eficaz para agentes autônomos. Em vez de depender de rollouts caros em ambientes reais, o DreamGym destila a dinâmica do ambiente em um modelo de experiência baseado em raciocínio que deriva transições de estado consistentes e sinais de feedback por meio de raciocínio passo a passo, permitindo a coleta escalável de rollouts de agentes para RL. Para melhorar a estabilidade e a qualidade das transições, o DreamGym aproveita um buffer de replay de experiência inicializado com dados offline do mundo real e continuamente enriquecido com interações recentes para apoiar ativamente o treinamento do agente. Para melhorar a aquisição de conhecimento, o DreamGym gera adaptativamente novas tarefas que desafiam a política atual do agente, permitindo um aprendizado curricular online mais eficaz. Experimentos em diversos ambientes e arquiteturas de agentes demonstram que o DreamGym melhora substancialmente o treinamento RL, tanto em configurações totalmente sintéticas quanto em cenários de transferência sim-to-real. Em tarefas não prontas para RL, como o WebArena, o DreamGym supera todas as baselines em mais de 30%. E em configurações prontas para RL, mas custosas, ele iguala o desempenho do GRPO e do PPO usando apenas interações sintéticas. Ao transferir uma política treinada puramente em experiências sintéticas para RL em ambiente real, o DreamGym produz ganhos de desempenho adicionais significativos, exigindo muito menos interações do mundo real, fornecendo uma estratégia de warm-start escalável para RL de propósito geral.
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025