Video4Spatial: Hacia la Inteligencia Visoespacial con Generación de Vídeo Guiada por Contexto
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
December 2, 2025
Autores: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI
Resumen
Investigamos si los modelos generativos de video pueden exhibir inteligencia visuoespacial, una capacidad central de la cognición humana, utilizando únicamente datos visuales. Para ello, presentamos Video4Spatial, un marco que demuestra que los modelos de difusión de video condicionados exclusivamente con el contexto escénico basado en video pueden realizar tareas espaciales complejas. Validamos en dos tareas: navegación escénica - seguir instrucciones de pose de cámara manteniendo la coherencia con la geometría 3D de la escena, y grounding de objetos - que requiere localización semántica, seguimiento de instrucciones y planificación. Ambas tareas utilizan entradas únicamente de video, sin modalidades auxiliares como profundidad o poses. Con decisiones de diseño simples pero efectivas en el marco y la curación de datos, Video4Spatial demuestra una sólida comprensión espacial a partir del contexto de video: planifica la navegación y localiza objetos objetivo de extremo a extremo, sigue instrucciones de pose de cámara manteniendo la coherencia espacial, y generaliza a contextos largos y entornos fuera de dominio. En conjunto, estos resultados acercan los modelos generativos de video hacia el razonamiento visuoespacial general.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.