世界の連鎖:潜在運動における世界モデル思考
Chain of World: World Model Thinking in Latent Motion
March 3, 2026
著者: Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Chen Wei, Tonghua Su, Baorui Ma
cs.AI
要旨
Vision-Language-Action (VLA) モデルは身体性知能実現への有望なアプローチであるが、視覚的ダイナミクスの根底にある予測的・時間的因果構造を軽視しがちである。世界モデル型VLAは未来フレームの予測によりこの問題に対処するが、冗長な背景の再構築に容量を浪費する。潜在行動型VLAはフレーム間遷移をコンパクトに符号化するが、時間的に連続的な動的モデリングと世界知識を欠く。これらの限界を克服するため、我々は世界モデルの時間推論と分離された潜在運動表現を統合する新たな「Chain of World」パラダイムであるCoWVLAを提案する。まず、事前学習済みビデオVAEを潜在運動抽出器として用い、動画セグメントを構造潜在変数と運動潜在変数に明示的に分離する。次に、事前学習段階において、VLAは指示と初期フレームから連続的な潜在運動連鎖を推論し、セグメントの終端フレームを予測するように学習する。最後に、協調ファインチューニング段階では、この潜在的ダイナミクスを、疎なキーフレームと行動系列を統合的自回帰デコーダで共同モデリングすることにより、離散的行動予測と整合させる。この設計は、時間推論と世界知識という世界モデルの利点を保持しつつ、潜在行動のコンパクト性と解釈可能性を維持し、効率的な視覚運動学習を可能にする。ロボットシミュレーションベンチマークによる大規模実験では、CoWVLAが既存の世界モデル型・潜在行動型アプローチを凌駕し、中程度の計算効率を達成することを示し、より効果的なVLA事前学習パラダイムとしての可能性を強調する。プロジェクトウェブサイトは https://fx-hit.github.io/cowvla-io で公開されている。
English
Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.