映像生成を世界モデルとしてのメカニズム的視点:状態とダイナミクス
A Mechanistic View on Video Generation as World Models: State and Dynamics
January 22, 2026
著者: Luozhou Wang, Zhifei Chen, Yihua Du, Dongyu Yan, Wenhang Ge, Guibao Shen, Xinli Xu, Leyi Wu, Man Chen, Tianshuo Xu, Peiran Ren, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
要旨
大規模動画生成モデルは、物理的整合性の創発的性質を示し、世界モデルとしての可能性を提示している。しかし、現代の「状態非依存型」動画アーキテクチャと、状態を中心とする古典的世界モデル理論の間には隔たりが存在する。本研究はこの隔たりを埋めるため、「状態構築」と「動力学モデリング」を二大支柱とする新たな分類体系を提案する。状態構築を暗黙的パラダイム(文脈管理)と明示的パラダイム(潜在圧縮)に分類し、動力学モデリングは知識統合とアーキテクチャ再構築の観点から分析する。さらに、評価基準を視覚的忠実度から機能的ベンチマークへ転換することを提唱し、物理的持続性と因果推論の検証を推進する。最後に、データ駆動型メモリと圧縮忠実度による持続性の向上、潜在因子分離と推論優先統合による因果性の進化という二つの重要課題を提示する。これらの課題に取り組むことで、視覚的に妥当な動画生成から、頑健で汎用性の高い世界シミュレータの構築へと発展することが可能となる。
English
Large-scale video generation models have demonstrated emergent physical coherence, positioning them as potential world models. However, a gap remains between contemporary "stateless" video architectures and classic state-centric world model theories. This work bridges this gap by proposing a novel taxonomy centered on two pillars: State Construction and Dynamics Modeling. We categorize state construction into implicit paradigms (context management) and explicit paradigms (latent compression), while dynamics modeling is analyzed through knowledge integration and architectural reformulation. Furthermore, we advocate for a transition in evaluation from visual fidelity to functional benchmarks, testing physical persistence and causal reasoning. We conclude by identifying two critical frontiers: enhancing persistence via data-driven memory and compressed fidelity, and advancing causality through latent factor decoupling and reasoning-prior integration. By addressing these challenges, the field can evolve from generating visually plausible videos to building robust, general-purpose world simulators.