ChatPaper.aiChatPaper

INSPATIO-WORLD: Um Simulador de Mundo 4D em Tempo Real via Modelagem Autorregressiva Espaço-Temporal

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

April 8, 2026
Autores: InSpatio Team, Donghui Shen, Guofeng Zhang, Haomin Liu, Haoyu Ji, Hujun Bao, Hongjia Zhai, Jialin Liu, Jing Guo, Nan Wang, Siji Pan, Weihong Pan, Weijian Xie, Xianbin Liu, Xiaojun Xiang, Xiaoyu Zhang, Xinyu Chen, Yifu Wang, Yipeng Chen, Zhenzhou Fan, Zhewen Le, Zhichao Ye, Ziqiang Zhao
cs.AI

Resumo

A construção de modelos de mundo com consistência espacial e interatividade em tempo real continua a ser um desafio fundamental na visão computacional. Os paradigmas atuais de geração de vídeo frequentemente lutam com a falta de persistência espacial e realismo visual insuficiente, dificultando o suporte a uma navegação perfeita em ambientes complexos. Para enfrentar esses desafios, propomos o INSPATIO-WORLD, uma nova estrutura em tempo real capaz de recuperar e gerar cenas interativas dinâmicas de alta fidelidade a partir de um único vídeo de referência. O cerne da nossa abordagem é uma arquitetura Autorregressiva Espaciotemporal (STAR), que permite a evolução consistente e controlável da cena através de dois componentes fortemente acoplados: a Cache Espaciotemporal Implícita agrega observações de referência e históricas numa representação latente do mundo, garantindo consistência global durante a navegação de longo horizonte; o Módulo de Restrição Espacial Explícita impõe a estrutura geométrica e traduz as interações do utilizador em trajetórias de câmera precisas e fisicamente plausíveis. Além disso, introduzimos a Destilação por Correspondência de Distribuição Conjunta (JDMD). Ao usar distribuições de dados do mundo real como um guia de regularização, a JDMD supera efetivamente a degradação da fidelidade tipicamente causada pela excessiva dependência de dados sintéticos. Experimentos extensivos demonstram que o INSPATIO-WORLD supera significativamente os modelos state-of-the-art (SOTA) existentes em consistência espacial e precisão de interação, ocupando o primeiro lugar entre os métodos interativos em tempo real no benchmark WorldScore-Dynamic, e estabelecendo um pipeline prático para navegar em ambientes 4D reconstruídos a partir de vídeos monoculares.
English
Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.
PDF352April 17, 2026