ChatPaper.aiChatPaper

Aprendiendo a Razonar en 4D: Comprensión Espacial Dinámica para Modelos de Lenguaje Visual

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

December 23, 2025
Autores: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI

Resumen

Los modelos de visión y lenguaje (VLM) sobresalen en la comprensión general, pero siguen siendo deficientes en el razonamiento espacial dinámico (DSR), es decir, en razonar sobre la evolución de la geometría y las relaciones de los objetos en el espacio 3D a lo largo del tiempo, debido principalmente a la escasez de recursos de entrenamiento escalables y conscientes de la 4D. Para cerrar esta brecha en los aspectos de conjunto de datos, benchmark y modelo, presentamos DSR Suite. En primer lugar, proponemos un pipeline automatizado que genera pares de preguntas de opción múltiple y respuestas a partir de vídeos en entornos naturales para el DSR. Al aprovechar modelos fundacionales de visión modernos, el pipeline extrae información geométrica y de movimiento enriquecida, incluyendo poses de cámara, nubes de puntos locales, máscaras de objetos, orientaciones y trayectorias 3D. Estas pistas geométricas permiten la construcción de DSR-Train para el aprendizaje y DSR-Bench, refinado por humanos, para la evaluación. En comparación con trabajos anteriores, nuestros datos enfatizan (i) fuentes de vídeo en entornos naturales, (ii) requisitos 3D a nivel de objeto y escena, (iii) transformaciones del punto de vista, (iv) interacciones multi-objeto, y (v) respuestas procedimentales y de grano fino. Más allá de los datos, proponemos un Módulo Liviano de Selección de Geometría (GSM) para integrar de forma fluida conocimientos previos geométricos en los VLM, el cual condensa la semántica de la pregunta y extrae conocimiento relevante para la pregunta a partir de conocimientos previos preentrenados de reconstrucción 4D, convirtiéndolo en un conjunto compacto de tokens geométricos. Esta extracción dirigida evita abrumar al modelo con conocimiento irrelevante. Los experimentos muestran que integrar DSR-Train y GSM en Qwen2.5-VL-7B mejora significativamente su capacidad de razonamiento espacial dinámico, manteniendo la precisión en benchmarks de comprensión general de vídeo.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.
PDF402December 26, 2025