INSPATIO-WORLD: 時空間自己回帰モデリングによるリアルタイム4D世界シミュレータ
INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
April 8, 2026
著者: InSpatio Team, Donghui Shen, Guofeng Zhang, Haomin Liu, Haoyu Ji, Hujun Bao, Hongjia Zhai, Jialin Liu, Jing Guo, Nan Wang, Siji Pan, Weihong Pan, Weijian Xie, Xianbin Liu, Xiaojun Xiang, Xiaoyu Zhang, Xinyu Chen, Yifu Wang, Yipeng Chen, Zhenzhou Fan, Zhewen Le, Zhichao Ye, Ziqiang Zhao
cs.AI
要旨
空間的一貫性とリアルタイム対話性を備えた世界モデルの構築は、コンピュータビジョンにおける根本的な課題であり続けています。現在の映像生成パラダイムは、空間的持続性の欠如や視覚的リアリズムの不足に悩まされることが多く、複雑な環境でのシームレスなナビゲーションを支援することが困難です。これらの課題に対処するため、我々は単一の参照動画から高精細で動的な対話的シーンを復元・生成可能な新たなリアルタイムフレームワーク「INSPATIO-WORLD」を提案します。本手法の中核となるのは、時空間自己回帰(STAR)アーキテクチャであり、密結合した二つのコンポーネントを通じて一貫性と制御性のあるシーン進化を実現します:暗黙的時空間キャッシュは参照情報と過去の観測を潜在世界表現に集約し、長期的ナビゲーション中の大域的整合性を保証します。明示的空間制約モジュールは幾何学的構造を強化し、ユーザーインタラクションを精密かつ物理的に妥当なカメラ軌道に変換します。さらに、我々は結合分布マッチング蒸留(JDMD)を導入します。実世界データ分布を正則化ガイドとして用いることで、JDMDは合成データへの過度な依存によって生じる忠実度劣化を効果的に克服します。大規模な実験により、INSPATIO-WORLDが空間的一貫性と対話精度において既存の最先端(SOTA)モデルを大幅に上回り、WorldScore-Dynamicベンチマークでリアルタイム対話型手法中第一位を獲得、単眼カメラ動画から再構築された4D環境をナビゲートする実用的なパイプラインを確立することが実証されました。
English
Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.