Más allá de los 3D VQAs: inyectando prioris espaciales 3D en modelos de visión-lenguaje para un razonamiento geométrico mejorado

Resumen

Los Modelos de Visión y Lenguaje (VLM, por sus siglas en inglés) a menudo presentan dificultades para realizar un razonamiento espacial 3D robusto. Los métodos predominantes que se basan en el ajuste fino con conjuntos de datos de preguntas y respuestas visuales 3D (VQA, por sus siglas en inglés) pueden sobreadaptarse a sesgos específicos del conjunto de datos, mientras que la integración de codificadores visuales 3D especializados suele ser inflexible y engorrosa. En este artículo, sostenemos que la comprensión espacial genuina debería surgir del aprendizaje de priors geométricos fundamentales, no solo de la supervisión de VQA de alto nivel. Proponemos GASP (Prior Espacial con Conciencia Geométrica, por sus siglas en inglés), un marco que inyecta estos priors directamente en las capas del transformador del LLM. GASP emplea una pequeña cabeza de correspondencia, aplicada como señal de supervisión profunda en todas las capas, y se entrena con un objetivo dual que aprovecha la geometría real de escenas de video a gran escala: una pérdida contrastiva sobre las correspondencias de puntos reales impone invariancia de vista 2D, mientras que una supervisión de consistencia de profundidad resuelve ambigüedades geométricas 3D. Nuestro análisis primero proporciona un diagnóstico que muestra que la precisión interna de coincidencia de correspondencias de los VLM estándar es muy baja (a menudo por debajo del 5%). Luego demostramos que nuestro entrenamiento mejora sustancialmente este comportamiento, elevando la precisión máxima de correspondencia por capa a más del 70% y manteniendo una robustez temporal superior al 85%, mientras que las líneas base se mantienen por debajo del 5%. Estas mejoras internas se traducen en ganancias significativas en benchmarks espaciales posteriores, incluyendo un +18.2% en All-Angles Bench y un +29.0% en VSI-Bench, todo ello sin entrenar con ningún dato de VQA 3D. Nuestros hallazgos indican que aprender a partir de priors geométricos fundamentales es una vía prometedora y generalizable hacia VLM con un razonamiento espacial 3D más fiable.

English

Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.