INSPATIO-WORLD : Un simulateur de monde 4D en temps réel par modélisation autorégressive spatiotemporelle

Résumé

La construction de modèles du monde dotés de cohérence spatiale et d'interactivité en temps réel demeure un défi fondamental en vision par ordinateur. Les paradigmes actuels de génération vidéo peinent souvent à maintenir la persistance spatiale et à atteindre un réalisme visuel suffisant, rendant difficile la navigation fluide dans des environnements complexes. Pour relever ces défis, nous proposons INSPATIO-WORLD, un nouveau cadre en temps réel capable de reconstruire et de générer des scènes dynamiques interactives de haute fidélité à partir d'une seule vidéo de référence. Le cœur de notre approche repose sur une architecture autorégressive spatiotemporelle (STAR), qui permet une évolution scénique cohérente et contrôlable via deux composants étroitement couplés : le Cache Spatiotemporel Implicite agrège les observations de référence et historiques en une représentation latente du monde, garantissant une cohérence globale lors de navigations de longue durée ; le Module de Contrainte Spatiale Explicite impose une structure géométrique et traduit les interactions utilisateur en trajectoires de caméra précises et physiquement plausibles. Par ailleurs, nous introduisons la Distillation par Appariement de Distribution Conjointe (JDMD). En utilisant les distributions de données du monde réel comme guide de régularisation, la JDMD surmonte efficacement la dégradation de fidélité typiquement causée par une dépendance excessive aux données synthétiques. Des expériences approfondies démontrent qu'INSPATIO-WORLD surpasse significativement les modèles état de l'art (SOTA) existants en cohérence spatiale et précision interactive, se classant premier parmi les méthodes interactives en temps réel sur le benchmark WorldScore-Dynamic, et établissant une pipeline pratique pour naviguer dans des environnements 4D reconstruits à partir de vidéos monoculaires.

English

Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.

INSPATIO-WORLD : Un simulateur de monde 4D en temps réel par modélisation autorégressive spatiotemporelle

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Résumé

Support