エージェント世界モデル:強化学習エージェントのための無限合成環境
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
February 10, 2026
著者: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
cs.AI
要旨
大規模言語モデル(LLM)の近年の進歩により、自律エージェントがツールや環境とのマルチターン相互作用を必要とする複雑なタスクを実行できるようになった。しかし、多様で信頼性の高い環境の不足により、このようなエージェント訓練のスケーリングが制限されている。本論文では、完全合成環境生成パイプラインであるAgent World Model(AWM)を提案する。このパイプラインを用いて、日常生活のシナリオをカバーする1,000の環境へスケールし、エージェントが豊富なツールセット(環境平均35ツール)と対話し、高品質な観測を得られるようにした。特筆すべきは、これらの環境がコード駆動でありデータベースに支えられているため、LLMでシミュレートされる環境よりも信頼性と一貫性のある状態遷移を提供することである。さらに、現実環境から軌跡を収集する場合と比較して、より効率的なエージェント相互作用を可能にする。このリソースの有効性を実証するため、マルチターンツール利用エージェントに対する大規模強化学習を実施した。完全実行可能な環境とアクセス可能なデータベース状態により、信頼性の高い報酬関数の設計も可能となった。3つのベンチマークによる実験では、ベンチマーク固有の環境ではなく合成環境のみで訓練することで、強力な分布外汎化性能が得られることが示された。コードはhttps://github.com/Snowflake-Labs/agent-world-modelで公開されている。
English
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.