Aprendendo a Raciocinar em 4D: Compreensão Espacial Dinâmica para Modelos de Linguagem de Visão
Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
December 23, 2025
Autores: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi
cs.AI
Resumo
Os modelos visão-linguagem (VLM) destacam-se na compreensão geral, mas permanecem fracos no raciocínio espacial dinâmico (DSR), ou seja, no raciocínio sobre a evolução da geometria e das relações dos objetos no espaço 3D ao longo do tempo, em grande parte devido à escassez de recursos de treinamento escaláveis e conscientes da 4D. Para preencher esta lacuna nos aspetos de conjunto de dados, benchmark e modelo, apresentamos a DSR Suite. Primeiro, propomos um pipeline automatizado que gera pares de perguntas-respostas de múltipla escolha a partir de vídeos do mundo real para DSR. Ao alavancar modelos de base de visão modernos, o pipeline extrai informações ricas de geometria e movimento, incluindo poses de câmara, nuvens de pontos locais, máscaras de objetos, orientações e trajetórias 3D. Estas pistas geométricas permitem a construção do DSR-Train para aprendizagem e do DSR-Bench, refinado posteriormente por humanos, para avaliação. Em comparação com trabalhos anteriores, os nossos dados enfatizam (i) fontes de vídeo do mundo real, (ii) requisitos 3D a nível de objeto e de cena, (iii) transformações de ponto de vista, (iv) interações multiobjeto e (v) respostas processuais e de granularidade fina. Para além dos dados, propomos um módulo leve de Seleção de Geometria (GSM) para integrar perfeitamente conhecimentos prévios de geometria em VLMs, que condensa a semântica da pergunta e extrai conhecimentos relevantes para a pergunta a partir de conhecimentos prévios de reconstrução 4D pré-treinados num conjunto compacto de tokens de geometria. Esta extração direcionada evita sobrecarregar o modelo com conhecimento irrelevante. Experiências mostram que a integração do DSR-Train e do GSM no Qwen2.5-VL-7B melhora significativamente a sua capacidade de raciocínio espacial dinâmico, mantendo a precisão em benchmarks de compreensão geral de vídeo.
English
Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.