ChatPaper.aiChatPaper

Video4Spatial: Op weg naar visuoruimtelijke intelligentie met contextgestuurde videogeneratie

Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

December 2, 2025
Auteurs: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI

Samenvatting

Wij onderzoeken of videogeneratieve modellen visuospatiale intelligentie kunnen vertonen – een vermogen dat centraal staat in de menselijke cognitie – uitsluitend gebruikmakend van visuele data. Hiertoe presenteren we Video4Spatial, een raamwerk dat aantoont dat videodiffusiemodellen, uitsluitend getraind op op video gebaseerde context, complexe ruimtelijke taken kunnen uitvoeren. We valideren dit aan de hand van twee taken: scènenavigatie – het volgen van camerapose-instructies terwijl consistent wordt gebleven met de 3D-geometrie van de scène – en objectlokalisatie, wat semantische lokalisatie, instructievolging en planning vereist. Beide taken gebruiken uitsluitend video-input, zonder aanvullende modaliteiten zoals diepte-informatie of poses. Door eenvoudige maar effectieve ontwerpkeuzes in het raamwerk en datacuratie demonstreert Video4Spatial een sterk ruimtelijk begrip vanuit videocontext: het plant navigatie en lokaliseert doelobjecten end-to-end, volgt camerapose-instructies terwijl ruimtelijke consistentie behouden blijft, en generaliseert naar lange contexten en omgevingen buiten de trainingsdistributie. Gezamenlijk zetten deze resultaten videogeneratieve modellen een stap verder in de richting van algemeen visuospatieel redeneren.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.
PDF31December 4, 2025