Video4Spatial: К визуально-пространственному интеллекту через генерацию видео с контекстным управлением
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
December 2, 2025
Авторы: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI
Аннотация
Мы исследуем, способны ли видео-генеративные модели проявлять визуально-пространственный интеллект — ключевую способность человеческого познания — используя только визуальные данные. Для этого мы представляем Video4Spatial, фреймворк, который демонстрирует, что видео-диффузионные модели, обученные исключительно на видео-контексте сцены, могут выполнять сложные пространственные задачи. Мы проводим валидацию на двух задачах: навигации в сцене — следовании инструкциям по изменению положения камеры с сохранением соответствия 3D-геометрии сцены, и локализации объектов — что требует семантической локализации, следования инструкциям и планирования. Обе задачи используют только видео-входные данные, без вспомогательных модальностей, таких как глубина или позы. Благодаря простым, но эффективным проектным решениям в архитектуре фреймворка и курации данных, Video4Spatial демонстрирует глубокое понимание пространства из видео-контекста: модель осуществляет планирование навигации и сквозную локализацию целевых объектов, следует инструкциям по положению камеры, сохраняя пространственную согласованность, и обобщает для длинных контекстов и сред, не представленных в обучающих данных. В совокупности эти результаты продвигают видео-генеративные модели в сторону общих рассуждений о визуально-пространственной среде.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.