Video4Spatial : Vers l'intelligence visuo-spatiale par la génération vidéo guidée par le contexte
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
December 2, 2025
papers.authors: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI
papers.abstract
Nous examinons si les modèles génératifs vidéo peuvent manifester une intelligence visuospatiale, capacité centrale de la cognition humaine, en utilisant uniquement des données visuelles. Pour cela, nous présentons Video4Spatial, un cadre démontrant que des modèles de diffusion vidéo conditionnés uniquement par un contexte scénique basé sur la vidéo peuvent réaliser des tâches spatiales complexes. Nous validons cette approche sur deux tâches : la navigation scénique - suivre des instructions de pose caméra tout en restant cohérent avec la géométrie 3D de la scène - et l'ancrage d'objets - qui nécessite une localisation sémantique, le suivi d'instructions et la planification. Les deux tâches utilisent des entrées purement vidéo, sans modalités auxiliaires comme la profondeur ou les poses. Grâce à des choix de conception simples mais efficaces dans l'architecture et la curation des données, Video4Spatial démontre une compréhension spatiale robuste à partir du contexte vidéo : il planifie la navigation et ancre les objets cibles de bout en bout, suit les instructions de pose caméra tout en maintenant la cohérence spatiale, et généralise à des contextes longs et à des environnements hors domaine. Collectivement, ces résultats font progresser les modèles génératifs vidéo vers le raisonnement visuospatial général.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.