Imparare a Ragionare in 4D: Comprensione Spaziale Dinamica per Modelli Linguistici Visivi
Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
December 23, 2025
Autori: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI
Abstract
I modelli visione-linguaggio (VLM) eccellono nella comprensione generale ma rimangono deboli nel ragionamento spaziale dinamico (DSR), ovvero nel ragionare sull'evoluzione della geometria e delle relazioni degli oggetti nello spazio 3D nel tempo, principalmente a causa della scarsità di risorse di addestramento scalabili e consapevoli della quarta dimensione. Per colmare questa lacuna negli aspetti di dataset, benchmark e modello, introduciamo DSR Suite. In primo luogo, proponiamo una pipeline automatizzata che genera coppie domanda-risposta a scelta multipla da video in contesti reali per il DSR. Sfruttando moderni modelli fondazionali per la visione, la pipeline estrae ricche informazioni geometriche e di movimento, incluse pose della telecamera, nuvole di punti locali, maschere degli oggetti, orientamenti e traiettorie 3D. Questi indizi geometrici consentono la costruzione di DSR-Train per l'apprendimento e di DSR-Bench, perfezionato da umani, per la valutazione. Rispetto ai lavori precedenti, i nostri dati enfatizzano (i) fonti video in contesti reali, (ii) requisiti 3D a livello di oggetto e scena, (iii) trasformazioni del punto di vista, (iv) interazioni multi-oggetto e (v) risposte procedurali e granulari. Oltre ai dati, proponiamo un modulo leggero di Selezione Geometrica (GSM) per integrare seamlessmente conoscenze geometriche pregresse nei VLM, il quale condensa la semantica della domanda ed estrae dalla conoscenza pre-addestrata di ricostruzione 4D le informazioni rilevanti per la domanda, racchiudendole in un insieme compatto di token geometrici. Questa estrazione mirata evita di sopraffare il modello con conoscenze irrilevanti. Gli esperimenti mostrano che l'integrazione di DSR-Train e GSM in Qwen2.5-VL-7B migliora significativamente la sua capacità di ragionamento spaziale dinamico, mantenendo al contempo l'accuratezza su benchmark di comprensione video generale.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.