INSPATIO-WORLD: Реализация симулятора 4D-мира в реальном времени с помощью пространственно-временного авторегрессионного моделирования
INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
April 8, 2026
Авторы: InSpatio Team, Donghui Shen, Guofeng Zhang, Haomin Liu, Haoyu Ji, Hujun Bao, Hongjia Zhai, Jialin Liu, Jing Guo, Nan Wang, Siji Pan, Weihong Pan, Weijian Xie, Xianbin Liu, Xiaojun Xiang, Xiaoyu Zhang, Xinyu Chen, Yifu Wang, Yipeng Chen, Zhenzhou Fan, Zhewen Le, Zhichao Ye, Ziqiang Zhao
cs.AI
Аннотация
Построение мировых моделей с пространственной согласованностью и интерактивностью в реальном времени остается фундаментальной задачей в компьютерном зрении. Современные парадигмы генерации видео часто сталкиваются с отсутствием пространственной устойчивости и недостаточной визуальной реалистичностью, что затрудняет поддержку бесшовной навигации в сложных средах. Для решения этих проблем мы предлагаем INSPATIO-WORLD — новую систему реального времени, способную восстанавливать и генерировать высокодетализированные динамические интерактивные сцены по одному референсному видео. В основе нашего подхода лежит Spatiotemporal Autoregressive (STAR) архитектура, которая обеспечивает согласованную и управляемую эволюцию сцены с помощью двух тесно связанных компонентов: Implicit Spatiotemporal Cache агрегирует референсные и исторические наблюдения в латентное представление мира, гарантируя глобальную согласованность при долгосрочной навигации; Explicit Spatial Constraint Module обеспечивает соблюдение геометрической структуры и преобразует пользовательские взаимодействия в точные и физически правдоподобные траектории камеры. Кроме того, мы представляем Joint Distribution Matching Distillation (JDMD). Используя распределения реальных данных в качестве регуляризирующего ориентира, JDMD эффективно преодолевает снижение точности, типичное для чрезмерной зависимости от синтетических данных. Многочисленные эксперименты демонстрируют, что INSPATIO-WORLD значительно превосходит современные (SOTA) модели по пространственной согласованности и точности взаимодействий, занимая первое место среди методов реального времени на бенчмарке WorldScore-Dynamic и создавая практичный конвейер для навигации в 4D-средах, реконструированных из монокулярных видео.
English
Building world models with spatial consistency and real-time interactivity remains a fundamental challenge in computer vision. Current video generation paradigms often struggle with a lack of spatial persistence and insufficient visual realism, making it difficult to support seamless navigation in complex environments. To address these challenges, we propose INSPATIO-WORLD, a novel real-time framework capable of recovering and generating high-fidelity, dynamic interactive scenes from a single reference video. At the core of our approach is a Spatiotemporal Autoregressive (STAR) architecture, which enables consistent and controllable scene evolution through two tightly coupled components: Implicit Spatiotemporal Cache aggregates reference and historical observations into a latent world representation, ensuring global consistency during long-horizon navigation; Explicit Spatial Constraint Module enforces geometric structure and translates user interactions into precise and physically plausible camera trajectories. Furthermore, we introduce Joint Distribution Matching Distillation (JDMD). By using real-world data distributions as a regularizing guide, JDMD effectively overcomes the fidelity degradation typically caused by over-reliance on synthetic data. Extensive experiments demonstrate that INSPATIO-WORLD significantly outperforms existing state-of-the-art (SOTA) models in spatial consistency and interaction precision, ranking first among real-time interactive methods on the WorldScore-Dynamic benchmark, and establishing a practical pipeline for navigating 4D environments reconstructed from monocular videos.