INSPATIO-WORLD: Um Simulador de Mundo 4D em Tempo Real via Modelagem Autorregressiva Espaço-Temporal

Resumo

A construção de modelos de mundo com consistência espacial e interatividade em tempo real continua a ser um desafio fundamental na visão computacional. Os paradigmas atuais de geração de vídeo frequentemente lutam com a falta de persistência espacial e realismo visual insuficiente, dificultando o suporte a uma navegação perfeita em ambientes complexos. Para enfrentar esses desafios, propomos o INSPATIO-WORLD, uma nova estrutura em tempo real capaz de recuperar e gerar cenas interativas dinâmicas de alta fidelidade a partir de um único vídeo de referência. O cerne da nossa abordagem é uma arquitetura Autorregressiva Espaciotemporal (STAR), que permite a evolução consistente e controlável da cena através de dois componentes fortemente acoplados: a Cache Espaciotemporal Implícita agrega observações de referência e históricas numa representação latente do mundo, garantindo consistência global durante a navegação de longo horizonte; o Módulo de Restrição Espacial Explícita impõe a estrutura geométrica e traduz as interações do utilizador em trajetórias de câmera precisas e fisicamente plausíveis. Além disso, introduzimos a Destilação por Correspondência de Distribuição Conjunta (JDMD). Ao usar distribuições de dados do mundo real como um guia de regularização, a JDMD supera efetivamente a degradação da fidelidade tipicamente causada pela excessiva dependência de dados sintéticos. Experimentos extensivos demonstram que o INSPATIO-WORLD supera significativamente os modelos state-of-the-art (SOTA) existentes em consistência espacial e precisão de interação, ocupando o primeiro lugar entre os métodos interativos em tempo real no benchmark WorldScore-Dynamic, e estabelecendo um pipeline prático para navegar em ambientes 4D reconstruídos a partir de vídeos monoculares.

English

Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.

INSPATIO-WORLD: Um Simulador de Mundo 4D em Tempo Real via Modelagem Autorregressiva Espaço-Temporal

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Resumo

Support