ChatPaper.aiChatPaper

Apprendre à raisonner en 4D : Compréhension spatiale dynamique pour les modèles de vision et de langage

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

December 23, 2025
papers.authors: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI

papers.abstract

Les modèles vision-langue (VLM) excellent dans la compréhension générale mais restent faibles en raisonnement spatial dynamique (DSR), c'est-à-dire l'inférence sur l'évolution de la géométrie et des relations des objets dans l'espace 3D au fil du temps, principalement en raison de la rareté des ressources d'entraînement évolutives conscientes de la 4D. Pour combler cette lacune aux niveaux du jeu de données, du benchmark et du modèle, nous présentons DSR Suite. Premièrement, nous proposons un pipeline automatisé qui génère des paires question-réponse à choix multiples à partir de vidéos in-the-wild pour le DSR. En tirant parti des modèles de fondation vision modernes, le pipeline extrait de riches informations géométriques et de mouvement, incluant les poses de caméra, les nuages de points locaux, les masques d'objets, les orientations et les trajectoires 3D. Ces indices géométriques permettent la construction de DSR-Train pour l'apprentissage et de DSR-Bench, affiné par des humains, pour l'évaluation. Par rapport aux travaux précédents, nos données mettent l'accent sur (i) des sources vidéo in-the-wild, (ii) des exigences 3D au niveau objet et scène, (iii) les transformations de point de vue, (iv) les interactions multi-objets, et (v) des réponses procédurales et fines. Au-delà des données, nous proposons un module de sélection géométrique (GSM) léger pour intégrer de manière transparente des prérequis géométriques dans les VLM. Ce module condense la sémantique des questions et extrait les connaissances pertinentes de prérequis de reconstruction 4D pré-entraînés en un ensemble compact de jetons géométriques. Cette extraction ciblée évite de submerger le modèle avec des connaissances non pertinentes. Les expériences montrent que l'intégration de DSR-Train et de GSM dans Qwen2.5-VL-7B améliore significativement sa capacité de raisonnement spatial dynamique, tout en maintenant la précision sur les benchmarks de compréhension vidéo générale.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.
PDF402December 26, 2025