ChatPaper.aiChatPaper

Lernen, in 4D zu denken: Dynamisches räumliches Verständnis für Vision-Language-Modelle

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

December 23, 2025
papers.authors: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI

papers.abstract

Vision-Language-Modelle (VLM) zeichnen sich durch ein allgemeines Verständnis aus, sind jedoch nach wie vor schwach in der dynamischen räumlichen Reasoning (DSR), also dem Schlussfolgern über die Entwicklung von Objektgeometrien und -beziehungen im 3D-Raum über die Zeit. Dies ist größtenteils auf den Mangel an skalierbaren, 4D-bewussten Trainingsressourcen zurückzuführen. Um diese Lücke in den Bereichen Datensatz, Benchmark und Modell zu schließen, führen wir die DSR Suite ein. Zunächst schlagen wir einen automatisierten Pipeline vor, die Multiple-Choice-Frage-Antwort-Paare aus In-the-Wild-Videos für DSR generiert. Durch die Nutzung moderner Vision-Foundation-Modelle extrahiert die Pipeline umfangreiche geometrische und Bewegungsinformationen, einschließlich Kameraposen, lokaler Punktwolken, Objektmasken, Orientierungen und 3D-Trajektorien. Diese geometrischen Hinweise ermöglichen die Erstellung von DSR-Train für das Lernen und des weiter menschlich verfeinerten DSR-Bench für die Evaluation. Im Vergleich zu früheren Arbeiten legen unsere Daten Wert auf (i) In-the-Wild-Videoquellen, (ii) Objekt- und Szenenebenen-3D-Anforderungen, (iii) Blickpunkttransformationen, (iv) Multi-Objekt-Interaktionen und (v) feinkörnige, prozessuale Antworten. Über Daten hinaus schlagen wir ein leichtgewichtiges Geometry Selection Module (GSM) vor, um geometrische Priors nahtlos in VLMs zu integrieren. Dieses moduliert die Fragesemantik und extrahiert fragerelevantes Wissen aus vortrainierten 4D-Rekonstruktions-Priors in einen kompakten Satz von Geometrie-Tokens. Diese gezielte Extraktion vermeidet es, das Modell mit irrelevantem Wissen zu überfluten. Experimente zeigen, dass die Integration von DSR-Train und GSM in Qwen2.5-VL-7B dessen Fähigkeit zum dynamischen räumlichen Reasoning erheblich verbessert, während die Genauigkeit auf Benchmarks für allgemeines Videoverständnis erhalten bleibt.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.
PDF402December 26, 2025