Au-delà des VQA 3D : Injecter des a priori spatiaux 3D dans les modèles vision-langage pour un raisonnement géométrique amélioré

Résumé

Les Modèles Vision-Langage (MVL) éprouvent souvent des difficultés à effectuer un raisonnement spatial 3D robuste. Les méthodes courantes, qui reposent sur un réglage fin avec des ensembles de données de question-réponse visuelle (VQA) 3D, peuvent surapprendre les biais spécifiques à ces ensembles, tandis que l'intégration d'encodeurs visuels 3D spécialisés s'avère souvent rigide et encombrante. Dans cet article, nous soutenons qu'une véritable compréhension spatiale devrait émerger de l'apprentissage de prérequis géométriques fondamentaux, et non uniquement d'une supervision de haut niveau par VQA. Nous proposons GASP (Geometric-Aware Spatial Priors), un cadre qui injecte ces prérequis directement dans les couches du transformateur du LLM. GASP utilise une petite tête de correspondance, appliquée comme un signal de supervision profonde sur toutes les couches, et est entraîné avec un double objectif exploitant la géométrie réelle issue de scènes vidéo à grande échelle : une perte contrastive sur les correspondances de points réelles impose une invariance de vue 2D, tandis qu'une supervision par cohérence de profondeur résout les ambiguïtés géométriques 3D. Notre analyse propose d'abord un diagnostic montrant que la précision de mise en correspondance interne des MVL standard est très faible (souvent inférieure à 5 %). Nous démontrons ensuite que notre entraînement améliore considérablement ce comportement, portant la correspondance maximale par couche à plus de 70 % et maintenant une robustesse temporelle de plus de 85 %, alors que les lignes de base restent en dessous de 5 %. Ces améliorations internes se traduisent par des gains significatifs sur des benchmarks spatiaux aval, notamment +18,2 % sur All-Angles Bench et +29,0 % sur VSI-Bench, le tout sans entraînement sur aucune donnée de VQA 3D. Nos résultats indiquent que l'apprentissage à partir de prérequis géométriques fondamentaux constitue une voie prometteuse et généralisable vers des MVL dotés d'un raisonnement spatial 3D plus fiable.

English

Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.