ChatPaper.aiChatPaper

Escalado del Aprendizaje de Agentes mediante Síntesis de Experiencias

Scaling Agent Learning via Experience Synthesis

November 5, 2025
Autores: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

Resumen

Si bien el aprendizaje por refuerzo (RL) puede potenciar a los agentes de modelos de lenguaje grandes (LLM) al permitir la auto-mejora mediante la interacción, su adopción práctica sigue siendo un desafío debido a los costosos despliegues (rollouts), la limitada diversidad de tareas, las señales de recompensa poco fiables y la complejidad de la infraestructura, todo lo cual obstaculiza la recopilación de datos de experiencia escalables. Para abordar estos desafíos, presentamos DreamGym, el primer marco unificado diseñado para sintetizar experiencias diversas con la escalabilidad en mente, para permitir un entrenamiento RL en línea efectivo para agentes autónomos. En lugar de depender de costosos despliegues en entornos reales, DreamGym destila la dinámica del entorno en un modelo de experiencia basado en razonamiento que deriva transiciones de estado consistentes y señales de retroalimentación a través de un razonamiento paso a paso, permitiendo la recopilación escalable de despliegues de agentes para RL. Para mejorar la estabilidad y calidad de las transiciones, DreamGym aprovecha un búfer de reproducción de experiencias (experience replay buffer) inicializado con datos del mundo real fuera de línea y enriquecido continuamente con interacciones frescas para apoyar activamente el entrenamiento del agente. Para mejorar la adquisición de conocimientos, DreamGym genera adaptativamente nuevas tareas que desafían la política actual del agente, permitiendo un aprendizaje curricular en línea más efectivo. Los experimentos en diversos entornos y arquitecturas de agentes demuestran que DreamGym mejora sustancialmente el entrenamiento RL, tanto en entornos completamente sintéticos como en escenarios de transferencia de simulación a realidad (sim-to-real). En tareas no preparadas para RL como WebArena, DreamGym supera a todos los métodos de referencia (baselines) en más de un 30%. Y en entornos preparados para RL pero costosos, iguala el rendimiento de GRPO y PPO utilizando solo interacciones sintéticas. Al transferir una política entrenada únicamente con experiencias sintéticas a un RL en entorno real, DreamGym produce ganancias de rendimiento adicionales significativas mientras requiere muchas menos interacciones del mundo real, proporcionando una estrategia de arranque en caliente (warm-start) escalable para RL de propósito general.
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025