INSPATIO-WORLD: Un Simulador Mundial 4D en Tiempo Real mediante Modelado Autorregresivo Espaciotemporal

Resumen

La construcción de modelos del mundo con consistencia espacial e interactividad en tiempo real sigue siendo un desafío fundamental en la visión por computador. Los paradigmas actuales de generación de vídeo a menudo adolecen de falta de persistencia espacial e insuficiente realismo visual, lo que dificulta la navegación fluida en entornos complejos. Para abordar estos desafíos, proponemos INSPATIO-WORLD, un novedoso marco de trabajo en tiempo real capaz de recuperar y generar escenas interactivas dinámicas de alta fidelidad a partir de un único vídeo de referencia. El núcleo de nuestro enfoque es una arquitectura Autoregresiva Espaciotemporal (STAR), que permite una evolución de la escena consistente y controlable mediante dos componentes estrechamente acoplados: la Caché Implícita Espaciotemporal agrega las observaciones de referencia e históricas en una representación latente del mundo, garantizando la consistencia global durante navegaciones de largo horizonte; el Módulo de Restricción Espacial Explícita impone una estructura geométrica y traduce las interacciones del usuario en trayectorias de cámara precisas y físicamente plausibles. Además, introducimos la Destilación por Correspondencia de Distribución Conjunta (JDMD). Al utilizar distribuciones de datos del mundo real como guía regularizadora, JDMD supera eficazmente la degradación de la fidelidad típicamente causada por la excesiva dependencia de datos sintéticos. Experimentos exhaustivos demuestran que INSPATIO-WORLD supera significativamente a los modelos punteros (SOTA) existentes en consistencia espacial y precisión de interacción, ocupando el primer puesto entre los métodos interactivos en tiempo real en el benchmark WorldScore-Dynamic, y estableciendo una canalización práctica para navegar por entornos 4D reconstruidos a partir de vídeos monoculares.

English

Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.

INSPATIO-WORLD: Un Simulador Mundial 4D en Tiempo Real mediante Modelado Autorregresivo Espaciotemporal

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Resumen

Support