エージェンシック世界モデリング:基礎、能力、法則、そしてその先へ
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
April 24, 2026
著者: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
cs.AI
要旨
AIシステムが単なるテキスト生成から、持続的な相互作用を通じた目標達成へと移行するにつれ、環境ダイナミクスをモデル化する能力が中核的なボトルネックとなっている。物体を操作し、ソフトウェアを操作し、他者と協調し、実験を設計するエージェントには、予測的な環境モデルが求められる。しかし、「世界モデル」という用語は研究コミュニティによって異なる意味を持つ。本稿では、「レベル×法則」の2軸で構成される分類体系を提案する。第一の軸は3つの能力レベルを定義する:L1予測器(1ステップの局所遷移演算子を学習)、L2シミュレータ(それらを組み合わせ、領域の法則に従う多ステップの行動条件付きロールアウトを生成)、L3進化器(予測が新たな証拠に反して失敗した際に自律的に自身のモデルを修正する)。第二の軸は、4つの支配的法则領域を特定する:物理的、デジタル、社会的、科学的。これらの領域は、世界モデルが満たすべき制約と、その失敗が最も起こりやすい場所を決定する。この枠組みを用いて、400以上の研究を統合し、モデルベース強化学習、ビデオ生成、Web/GUIエージェント、マルチエージェント社会シミュレーション、AI駆動科学発見にわたる100以上の代表的なシステムを要約する。レベルと領域の組み合わせごとに手法、失敗モード、評価手法を分析し、意思決定中心の評価原則と最小再現可能な評価パッケージを提案し、アーキテクチャ指針、未解決問題、ガバナンスの課題を概説する。この結果得られたロードマップは、これまで孤立していたコミュニティを結びつけ、受動的な次ステップ予測から、エージェントが動作する環境をシミュレートし、最終的には再形成できる世界モデルへの道筋を示す。
English
As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.