一般世界モデルの定義原理としての一貫性の三要素
The Trinity of Consistency as a Defining Principle for General World Models
February 26, 2026
著者: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan
cs.AI
要旨
客観的物理法則を学習・シミュレーション・推論可能な世界モデルの構築は、人工汎用知能の実現における基盤的課題である。Soraに代表される映像生成モデルの進展は、データ駆動型のスケーリング則が物理ダイナミクスを近似する可能性を示した一方、登場した統一マルチモーダルモデル(UMM)は知覚・言語・推論を統合する有望なアーキテクチャパラダイムを提供する。しかしながら、汎用世界モデルに必要不可欠な特性を定義する原理的な理論枠組みは依然として欠如している。本論文では、世界モデルが「三つの一貫性」に基づくべきことを提案する。意味的インターフェースとしてのモーダル一貫性、幾何学的基盤としての空間的一貫性、因果的駆動機関としての時間的一貫性である。この三位一体の視点からマルチモーダル学習の進化を体系的に検証すると、疎結合な専門モジュールから、内部世界シミュレーターの創発を可能にする統一アーキテクチャへの移行軌跡が明らかとなる。この概念的枠組みを補完するため、マルチフレーム推論・生成シナリオに焦点を当てたベンチマークCoW-Benchを導入する。CoW-Benchは映像生成モデルとUMMを統一評価プロトコル下で比較評価する。本研究は汎用世界モデルへの原理的な道筋を示し、現行システムの限界と将来進歩に必要なアーキテクチャ要件を明確化する。
English
The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.