ワールドアクションモデル:身体化AIの次のフロンティア
World Action Models: The Next Frontier in Embodied AI
May 12, 2026
著者: Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang
cs.AI
要旨
視覚-言語-行動(VLA)モデルは、具現化エージェントによるポリシー学習において強力な意味的汎化を達成してきたが、物理的な世界が介入下でどのように進展するかを明示的にモデル化することなく、反応的な観測から行動へのマッピングを学習している。この限界に対処するため、世界モデル(環境動態の予測モデル)を行動生成パイプラインに統合する研究が増加している。我々はこの新たなパラダイムを世界行動モデル(WAM)と呼ぶ。これは、予測的な状態モデリングと行動生成を統合し、行動単独ではなく将来の状態と行動の同時分布を対象とする具現化基盤モデルである。しかし、既存研究はアーキテクチャ、学習目的、応用シナリオにわたって断片的であり、統一的な概念枠組みが欠如している。本稿ではWAMを正式に定義し、関連概念との区別を明確にするとともに、このパラダイムを生み出したVLAおよび世界モデル研究の基盤と初期の統合を追跡する。さらに、既存手法をカスケード型WAMと統合型WAMの構造化された分類法に整理し、生成モダリティ、条件付け機構、行動復号化戦略に基づいてさらに細分化する。また、WAM開発を支えるデータエコシステム(ロボット遠隔操作、携帯型人間のデモンストレーション、シミュレーション、インターネット規模の一人称視点映像)を体系的に分析し、視覚的忠実性、物理的常識、行動の妥当性に基づく新たな評価プロトコルを総合する。以上より、本サーベイはWAMの研究領域に関する初の体系的整理を提供し、主要なアーキテクチャパラダイムとそのトレードオフを明確化し、この急速に発展する分野における未解決の課題と今後の機会を特定する。
English
Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.