Além dos VQAs 3D: Injetando Priores Espaciais 3D em Modelos de Visão-Linguagem para Raciocínio Geométrico Aprimorado

Resumo

Modelos Visão-Linguagem (MVLs) frequentemente enfrentam dificuldades com raciocínio espacial 3D robusto. Métodos predominantes que dependem de ajuste fino em conjuntos de dados de resposta a perguntas visuais (VQA) 3D podem superajustar vieses específicos do conjunto de dados, enquanto a integração de codificadores visuais 3D especializados é frequentemente inflexível e trabalhosa. Neste artigo, argumentamos que a compreensão espacial genuína deve emergir do aprendizado de prioris geométricas fundamentais, e não apenas da supervisão de VQA de alto nível. Propomos o GASP (Geometric-Aware Spatial Priors), uma estrutura que injeta essas prioris diretamente nas camadas do transformador do LLM. O GASP emprega uma pequena cabeça de correspondência, aplicada como um sinal de supervisão profunda em todas as camadas, e é treinado com um objetivo duplo que utiliza geometria de ground-truth de cenas de vídeo em grande escala: uma perda contrastiva em correspondências de pontos de ground-truth impõe invariância de visão 2D, enquanto uma supervisão de consistência de profundidade resolve ambiguidades geométricas 3D. Nossa análise primeiro fornece um diagnóstico mostrando que a precisão de correspondência interna de MVLs padrão é muito baixa (frequentemente abaixo de 5%). Em seguida, demonstramos que nosso treinamento melhora substancialmente esse comportamento, elevando a correspondência máxima por camada para mais de 70% e mantendo mais de 85% de robustez temporal, enquanto as linhas de base permanecem abaixo de 5%. Essas melhorias internas se traduzem em ganhos significativos em benchmarks espaciais downstream, incluindo +18,2% no All-Angles Bench e +29,0% no VSI-Bench, tudo sem treinamento em qualquer dado de VQA 3D. Nossos achados indicam que aprender a partir de prioris geométricas fundamentais é um caminho promissor e generalizável para MVLs com raciocínio espacial 3D mais confiável.

English

Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.