INSPATIO-WORLD: Un Simulatore Mondiale 4D in Tempo Reale tramite Modellazione Autoregressiva Spaziotemporale

Abstract

La costruzione di modelli del mondo con coerenza spaziale e interattività in tempo reale rimane una sfida fondamentale nella computer vision. I paradigmi attuali di generazione video spesso presentano una mancanza di persistenza spaziale e un realismo visivo insufficiente, rendendo difficile supportare una navigazione senza soluzione di continuità in ambienti complessi. Per affrontare queste problematiche, proponiamo INSPATIO-WORLD, un nuovo framework in tempo reale in grado di ricostruire e generare scene interattive dinamiche ad alta fedeltà a partire da un singolo video di riferimento. Il cuore del nostro approccio è un'architettura Autoregressiva Spaziotemporale (STAR), che abilita un'evoluzione della scena coerente e controllabile attraverso due componenti strettamente accoppiati: la Cache Spaziotemporale Implicita aggrega le osservazioni di riferimento e storiche in una rappresentazione latente del mondo, garantendo la coerenza globale durante la navigazione a lungo termine; il Modulo di Vincolo Spaziale Esplicito impone la struttura geometrica e traduce le interazioni dell'utente in traiettorie fotografiche precise e fisicamente plausibili. Inoltre, introduciamo la Distillazione per Apprendimento di Distribuzione Congiunta (JDMD). Utilizzando le distribuzioni di dati del mondo reale come guida regolarizzante, la JDMD supera efficacemente il degrado della fedeltà tipicamente causato da un'eccessiva dipendenza da dati sintetici. Esperimenti estensivi dimostrano che INSPATIO-WORLD supera significativamente i modelli state-of-the-art (SOTA) esistenti in coerenza spaziale e precisione di interazione, classificandosi al primo posto tra i metodi interattivi in tempo reale sul benchmark WorldScore-Dynamic e stabilendo una pipeline pratica per navigare ambienti 4D ricostruiti da video monoculari.

English

Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.

INSPATIO-WORLD: Un Simulatore Mondiale 4D in Tempo Reale tramite Modellazione Autoregressiva Spaziotemporale

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Abstract

Support