Leren redeneren in 4D: Dynamisch ruimtelijk begrip voor visueel-taalkundige modellen
Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
December 23, 2025
Auteurs: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI
Samenvatting
Vision-language models (VLM) blinken uit in algemeen begrip, maar presteren nog steeds zwak op het gebied van dynamisch ruimtelijk redeneren (DSR), oftewel het redeneren over de evolutie van objectgeometrie en -relaties in een 3D-ruimte over tijd. Dit komt grotendeels door het gebrek aan schaalbare 4D-bewuste trainingsbronnen. Om deze kloof te overbruggen op het gebied van dataset, benchmark en model, introduceren we DSR Suite. Ten eerste stellen we een geautomatiseerde pijplijn voor die meerkeuzevraag-antwoordparen genereert uit in-the-wild video's voor DSR. Door gebruik te maken van moderne vision foundation models, extraheert de pijplijn rijke geometrische en bewegingsinformatie, waaronder cameraposities, lokale point clouds, objectmaskers, oriëntaties en 3D-trajecten. Deze geometrische aanwijzingen maken de constructie mogelijk van DSR-Train voor leren en het verder door mensen verfijnde DSR-Bench voor evaluatie. In vergelijking met eerdere werken benadrukken onze gegevens (i) in-the-wild videobronnen, (ii) object- en scèneniveau 3D-vereisten, (iii) viewpointtransformaties, (iv) multi-objectinteracties en (v) fijnmazige, procedurele antwoorden. Naast gegevens stellen we een lichtgewicht Geometry Selection Module (GSM) voor om geometrische priors naadloos te integreren in VLMs. Deze module condenseert de vraag semantiek en extraheert vraagrelevante kennis uit voorgetrainde 4D-reconstructiepriors naar een compacte set geometrietokens. Deze gerichte extractie voorkomt dat het model overweldigd wordt met irrelevante kennis. Experimenten tonen aan dat de integratie van DSR-Train en GSM in Qwen2.5-VL-7B de dynamische ruimtelijke redeneercapaciteit aanzienlijk verbetert, terwijl de nauwkeurigheid op algemene videobegripbenchmarks behouden blijft.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.