Modelo de Mundo del Agente: Entornos Sintéticos Infinitos para el Aprendizaje por Refuerzo Agéntico
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
February 10, 2026
Autores: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje a gran escala (LLM) han potenciado a los agentes autónomos para realizar tareas complejas que requieren interacciones multi-turno con herramientas y entornos. Sin embargo, la escalabilidad de dicho entrenamiento de agentes se ve limitada por la carencia de entornos diversos y fiables. En este artículo, proponemos el Modelo de Mundo del Agente (AWM), una pipeline de generación de entornos completamente sintéticos. Utilizando esta pipeline, escalamos a 1.000 entornos que cubren escenarios cotidianos, en los que los agentes pueden interactuar con conjuntos de herramientas ricos (35 herramientas por entorno de media) y obtener observaciones de alta calidad. Cabe destacar que estos entornos están basados en código y respaldados por bases de datos, lo que proporciona transiciones de estado más fiables y consistentes que los entornos simulados por LLMs. Además, permiten una interacción del agente más eficiente en comparación con la recopilación de trayectorias de entornos realistas. Para demostrar la eficacia de este recurso, realizamos aprendizaje por refuerzo a gran escala para agentes de uso de herramientas multi-turno. Gracias a los entornos completamente ejecutables y a los estados accesibles de las bases de datos, también podemos diseñar funciones de recompensa fiables. Los experimentos en tres benchmarks muestran que el entrenamiento exclusivamente en entornos sintéticos, en lugar de en entornos específicos del benchmark, produce una fuerte generalización fuera de distribución. El código está disponible en https://github.com/Snowflake-Labs/agent-world-model.
English
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.