INSPATIO-WORLD: 시공간 자기회귀 모델링을 통한 실시간 4D 세계 시뮬레이터
INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
April 8, 2026
저자: InSpatio Team, Donghui Shen, Guofeng Zhang, Haomin Liu, Haoyu Ji, Hujun Bao, Hongjia Zhai, Jialin Liu, Jing Guo, Nan Wang, Siji Pan, Weihong Pan, Weijian Xie, Xianbin Liu, Xiaojun Xiang, Xiaoyu Zhang, Xinyu Chen, Yifu Wang, Yipeng Chen, Zhenzhou Fan, Zhewen Le, Zhichao Ye, Ziqiang Zhao
cs.AI
초록
공간적 일관성과 실시간 상호작용성을 갖춘 세계 모델 구축은 컴퓨터 비전 분야의 근본적인 과제로 남아 있습니다. 기존 비디오 생성 패러다임은 공간적 지속성 부족과 불충분한 시각적 현실감으로 인해 복잡한 환경에서의 원활한 탐색을 지원하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 우리는 단일 참조 비디오에서 고품질의 동적 상호작용 장면을 복원 및 생성할 수 있는 새로운 실시간 프레임워크인 INSPATIO-WORLD를 제안합니다. 우리 접근법의 핵심은 시공간 자기회귀(STAR) 아키텍처로, 두 가지 긴밀하게 결합된 구성 요소를 통해 일관되고 제어 가능한 장면 진화를 가능하게 합니다: 암묵적 시공간 캐시는 참조 및 과거 관측 정보를 잠재 세계 표현으로 집계하여 장기간 탐색 동안 전역 일관성을 보장합니다. 명시적 공간 제약 모듈은 기하학적 구조를 강화하고 사용자 상호작용을 정확하며 물리적으로 타당한 카메라 궤적으로 변환합니다. 더 나아가 우리는 결합 분포 정합 증류(JDMD)를 도입했습니다. 실제 세계 데이터 분포를 정규화 가이드로 활용함으로써 JDMD는 합성 데이터에 대한 과도한 의존으로 인해 일반적으로 발생하는 현실성 저하 문제를 효과적으로 극복합니다. 폭넓은 실험을 통해 INSPATIO-WORLD가 공간 일관성과 상호작용 정밀도에서 기존 최첨단(SOTA) 모델을 크게 능가하며, WorldScore-Dynamic 벤치마크에서 실시간 상호작용 방식 중 1위를 기록하고, 단안 비디오로부터 재구성된 4D 환경 탐색을 위한 실용적인 파이프라인을 구축했음을 입증했습니다.
English
Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.