Agenten-Weltmodell: Unendliche synthetische Umgebungen für agentenbasiertes bestärkendes Lernen
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
February 10, 2026
papers.authors: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLM) haben autonomen Agenten die Ausführung komplexer Aufgaben ermöglicht, die mehrstufige Interaktionen mit Werkzeugen und Umgebungen erfordern. Die Skalierung eines solchen Agententrainings wird jedoch durch den Mangel an vielfältigen und zuverlässigen Umgebungen eingeschränkt. In diesem Artikel schlagen wir Agent World Model (AWM) vor, eine vollständig synthetische Pipeline zur Umgebungsgenerierung. Mit dieser Pipeline skalieren wir auf 1.000 Umgebungen, die alltägliche Szenarien abdecken, in denen Agenten mit umfangreichen Werkzeugsätzen (durchschnittlich 35 Werkzeuge pro Umgebung) interagieren und hochwertige Beobachtungen erhalten können. Bemerkenswerterweise sind diese Umgebungen codegesteuert und durch Datenbanken unterstützt, was zuverlässigere und konsistentere Zustandsübergänge bietet als durch LLMs simulierte Umgebungen. Zudem ermöglichen sie eine effizientere Agenteninteraktion im Vergleich zur Erfassung von Trajektorien aus realen Umgebungen. Um die Wirksamkeit dieser Ressource zu demonstrieren, führen wir Reinforcement Learning im großen Maßstab für mehrstufige Werkzeugnutzungs-Agenten durch. Dank der vollständig ausführbaren Umgebungen und zugänglichen Datenbankzustände können wir auch zuverlässige Belohnungsfunktionen entwerfen. Experimente mit drei Benchmarks zeigen, dass ein ausschließliches Training in synthetischen Umgebungen anstatt in benchmarkspezifischen Umgebungen eine starke Out-of-Distribution-Generalisation bewirkt. Der Code ist verfügbar unter https://github.com/Snowflake-Labs/agent-world-model.
English
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.