ワールドアクションモデル:サーベイ
World Action Models: A Survey
June 18, 2026
著者: Qiuhong Shen, Shihua Zhang, Yue Liao, Qi Li, Zhenxiong Tan, Shizun Wang, Shuicheng Yan, Xinchao Wang
cs.AI
要旨
ワールドアクションモデル(WAM)は、未来予測を行動に利用可能にする身体化された予測行動モデルである。近年のWAMは大規模な動画生成モデルを転用しており、一方で、動画生成コアを持たずに言語または視覚言語バックボーンに依存する並行した研究系統も存在する。この急速な拡大により、広義のワールドモデル、動画生成モデル、行動に基づく動画ワールドモデル、視覚言語行動(VLA)ポリシー、そしてWAMの間の境界が曖昧になっている。本サーベイは、この分野に共通の理解を提供するものである。
まずこれらの境界を明確にし、次に既存の研究を2つの相補的な観点から整理する。第一の観点は、各手法が何を生成する必要があるかを問うもので、レンダリングされた未来、潜在的な未来、動画生成を伴わない行動推論にわたる。第二の観点は、各手法を予測基盤、バックボーン、行動結合、展開体制に分解する。この分析により、インタラクタビリティ、因果性、持続性、物理的妥当性、一般化について統一的な議論が可能となり、その後、データ、評価、未解決の課題について議論する。
これらの軸を通じて、一貫した設計パターンが浮かび上がる。すなわち、WAMは単に行動ヘッドを備えた動画生成器ではなく、その設計選択が表現の豊かさと計算量、メモリ、レイテンシ、行動ラベルコストとのトレードオフとなる予測行動手法である。この分野は、制御に必要なものを保持しつつ、未来の生成量を減らす方向へと向かっている。サーベイのホームページは https://world-action-models.github.io/ で公開されている。
English
World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.