Video4Spatial: Verso l'Intelligenza Visuo-Spaziale con Generazione Video Guidata dal Contesto
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
December 2, 2025
Autori: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI
Abstract
Indaghiamo se i modelli generativi video possano esibire intelligenza visuospaziale, una capacità centrale nella cognizione umana, utilizzando esclusivamente dati visivi. A tal fine, presentiamo Video4Spatial, un framework che dimostra come modelli di diffusione video condizionati unicamente sul contesto scenico basato su video possano eseguire compiti spaziali complessi. Validiamo l'approccio su due compiti: navigazione scenica - seguire istruzioni di posa della camera mantenendo la coerenza con la geometria 3D della scena - e grounding di oggetti - che richiede localizzazione semantica, esecuzione di istruzioni e pianificazione. Entrambi i compiti utilizzano input esclusivamente video, senza modalità ausiliarie come dati di profondità o pose. Grazie a scelte progettuali semplici ma efficaci nel framework e nella cura dei dati, Video4Spatial dimostra una solida comprensione spaziale a partire dal contesto video: pianifica la navigazione e effettua il grounding di oggetti target end-to-end, segue le istruzioni sulla posa della camera mantenendo la coerenza spaziale e generalizza a contesti lunghi e ambienti fuori dominio. Nel complesso, questi risultati fanno progredire i modelli generativi video verso un ragionamento visuospaziale generale.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.