Modèle de Monde Agent : Environnements Synthétiques Infinis pour l'Apprentissage par Renforcement Agentique
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
February 10, 2026
papers.authors: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
cs.AI
papers.abstract
Les récents progrès des grands modèles de langage (LLM) ont permis à des agents autonomes d'accomplir des tâches complexes nécessitant des interactions itératives avec des outils et des environnements. Cependant, la scalabilité de l'entraînement de tels agents est limitée par le manque d'environnements diversifiés et fiables. Dans cet article, nous proposons Agent World Model (AWM), un pipeline de génération d'environnements entièrement synthétique. Grâce à cette méthode, nous avons mis à l'échelle 1 000 environnements couvrant des scénarios quotidiens, dans lesquels les agents peuvent interagir avec des ensembles d'outils riches (35 outils par environnement en moyenne) et obtenir des observations de haute qualité. Notamment, ces environnements sont pilotés par du code et soutenus par des bases de données, offrant des transitions d'état plus fiables et cohérentes que les environnements simulés par des LLM. De plus, ils permettent une interaction agent-environnement plus efficace que la collecte de trajectoires dans des environnements réalistes. Pour démontrer l'efficacité de cette ressource, nous réalisons un apprentissage par renforcement à grande échelle pour des agents utilisant des outils de manière itérative. Grâce aux environnements entièrement exécutables et aux états de base de données accessibles, nous pouvons également concevoir des fonctions de récompense fiables. Les expériences sur trois benchmarks montrent qu'un entraînement exclusivement dans des environnements synthétiques, plutôt que dans des environnements spécifiques aux benchmarks, produit une forte généralisation hors distribution. Le code est disponible à l'adresse https://github.com/Snowflake-Labs/agent-world-model.
English
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.