Escalado del Aprendizaje de Agentes mediante Síntesis de Experiencias
Scaling Agent Learning via Experience Synthesis
November 5, 2025
Autores: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI
Resumen
Si bien el aprendizaje por refuerzo (RL) puede potenciar a los agentes de modelos de lenguaje grandes (LLM) al permitir la auto-mejora mediante la interacción, su adopción práctica sigue siendo un desafío debido a los costosos despliegues (rollouts), la limitada diversidad de tareas, las señales de recompensa poco fiables y la complejidad de la infraestructura, todo lo cual obstaculiza la recopilación de datos de experiencia escalables. Para abordar estos desafíos, presentamos DreamGym, el primer marco unificado diseñado para sintetizar experiencias diversas con la escalabilidad en mente, para permitir un entrenamiento RL en línea efectivo para agentes autónomos. En lugar de depender de costosos despliegues en entornos reales, DreamGym destila la dinámica del entorno en un modelo de experiencia basado en razonamiento que deriva transiciones de estado consistentes y señales de retroalimentación a través de un razonamiento paso a paso, permitiendo la recopilación escalable de despliegues de agentes para RL. Para mejorar la estabilidad y calidad de las transiciones, DreamGym aprovecha un búfer de reproducción de experiencias (experience replay buffer) inicializado con datos del mundo real fuera de línea y enriquecido continuamente con interacciones frescas para apoyar activamente el entrenamiento del agente. Para mejorar la adquisición de conocimientos, DreamGym genera adaptativamente nuevas tareas que desafían la política actual del agente, permitiendo un aprendizaje curricular en línea más efectivo. Los experimentos en diversos entornos y arquitecturas de agentes demuestran que DreamGym mejora sustancialmente el entrenamiento RL, tanto en entornos completamente sintéticos como en escenarios de transferencia de simulación a realidad (sim-to-real). En tareas no preparadas para RL como WebArena, DreamGym supera a todos los métodos de referencia (baselines) en más de un 30%. Y en entornos preparados para RL pero costosos, iguala el rendimiento de GRPO y PPO utilizando solo interacciones sintéticas. Al transferir una política entrenada únicamente con experiencias sintéticas a un RL en entorno real, DreamGym produce ganancias de rendimiento adicionales significativas mientras requiere muchas menos interacciones del mundo real, proporcionando una estrategia de arranque en caliente (warm-start) escalable para RL de propósito general.
English
While reinforcement learning (RL) can empower large language model (LLM)
agents by enabling self-improvement through interaction, its practical adoption
remains challenging due to costly rollouts, limited task diversity, unreliable
reward signals, and infrastructure complexity, all of which obstruct the
collection of scalable experience data. To address these challenges, we
introduce DreamGym, the first unified framework designed to synthesize diverse
experiences with scalability in mind to enable effective online RL training for
autonomous agents. Rather than relying on expensive real-environment rollouts,
DreamGym distills environment dynamics into a reasoning-based experience model
that derives consistent state transitions and feedback signals through
step-by-step reasoning, enabling scalable agent rollout collection for RL. To
improve the stability and quality of transitions, DreamGym leverages an
experience replay buffer initialized with offline real-world data and
continuously enriched with fresh interactions to actively support agent
training. To improve knowledge acquisition, DreamGym adaptively generates new
tasks that challenge the current agent policy, enabling more effective online
curriculum learning. Experiments across diverse environments and agent
backbones demonstrate that DreamGym substantially improves RL training, both in
fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready
tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in
RL-ready but costly settings, it matches GRPO and PPO performance using only
synthetic interactions. When transferring a policy trained purely on synthetic
experiences to real-environment RL, DreamGym yields significant additional
performance gains while requiring far fewer real-world interactions, providing
a scalable warm-start strategy for general-purpose RL.