Выходя за рамки 3D VQA: внедрение 3D-пространственных приоров в визуально-языковые модели для улучшения геометрического рассуждения

Аннотация

Модели зрения-языка (VLM) часто испытывают трудности с надежным 3D-пространственным рассуждением. Распространенные методы, основанные на тонкой настройке с использованием наборов данных для 3D-вопросов-ответов (VQA), могут переобучаться под специфические смещения наборов данных, а интеграция специализированных 3D-визуальных кодировщиков часто оказывается негибкой и громоздкой. В данной статье мы утверждаем, что подлинное пространственное понимание должно возникать из изучения фундаментальных геометрических априорных знаний, а не только из высокоуровневого контроля VQA. Мы предлагаем GASP (Geometric-Aware Spatial Priors) — фреймворк, который внедряет эти априорные знания непосредственно в слои трансформера большой языковой модели (LLM). GASP использует небольшую голову соответствия, применяемую как сигнал глубокого контроля на всех слоях, и обучается с двойной целью, используя эталонную геометрию из крупномасштабных видео сцен: контрастная потеря на эталонных точечных соответствии обеспечивает 2D-инвариантность к точке обзора, а контроль согласованности глубины разрешает 3D-геометрические неоднозначности. Наш анализ сначала предоставляет диагностику, показывающую, что точность внутреннего сопоставления соответствий в стандартных VLM очень низкая (часто ниже 5%). Затем мы демонстрируем, что наше обучение существенно улучшает это поведение, повышая пиковую послойную точность соответствий до более чем 70% и сохраняя временную робастность выше 85%, в то время как базовые методы остаются ниже 5%. Эти внутренние улучшения приводят к значительным успехам на последующих пространственных бенчмарках, включая +18,2% на All-Angles Bench и +29,0% на VSI-Bench, причем все это достигается без обучения на каких-либо данных 3D VQA. Наши результаты указывают на то, что обучение на основе фундаментальных геометрических априорных знаний является перспективным и обобщаемым путем к созданию VLM с более надежным 3D-пространственным рассуждением.

English

Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.