Voorbij 3D VQA’s: Het injecteren van ruimtelijke prioriën in visie-taalmodelen voor verbeterd geometrisch redeneren

Samenvatting

Visie-Taalmodellen (VLMs) hebben vaak moeite met robuust 3D-ruimtelijk redeneren. Gangbare methoden die vertrouwen op fijnafstemming met 3D visuele vraag-antwoord datasets (VQA) kunnen overmatig aanpassen aan datasetspecifieke vooroordelen, terwijl het integreren van gespecialiseerde 3D visuele encoders vaak inflexibel en omslachtig is. In dit artikel stellen we dat echte ruimtelijk begrip moet voortkomen uit het leren van fundamentele geometrische prioriën, niet alleen uit hoogwaardige VQA-supervisie. We stellen GASP (Geometric-Aware Spatial Priors) voor, een raamwerk dat deze prioriën direct in de transformerlagen van het LLM injecteert. GASP maakt gebruik van een klein correspondentiehoofd, toegepast als een diep supervisiesignaal over alle lagen, en wordt getraind met een tweeledige doelstelling die gebruikmaakt van de grondwaarheidsgeometrie uit grootschalige videoscènes: een contrastief verlies op grondwaarheidspuntcorrespondenties dwingt 2D-aanzichtinvariantie af, terwijl diepteconsistentietoezicht 3D geometrische dubbelzinnigheden oplost. Onze analyse biedt eerst een diagnose dat de interne correspondentie-matchingnauwkeurigheid van standaard VLMs zeer laag is (vaak onder 5%). Vervolgens tonen we aan dat onze training dit gedrag aanzienlijk verbetert, waardoor de piek laagsgewijze correspondentie stijgt tot meer dan 70% en de temporele robuustheid meer dan 85% blijft, terwijl de baselines onder 5% blijven. Deze interne verbeteringen vertalen zich in significante winsten op stroomafwaartse ruimtelijke benchmarks, waaronder +18,2% op All-Angles Bench en +29,0% op VSI-Bench, en dit alles zonder training op enige 3D VQA-data. Onze bevindingen wijzen erop dat leren van fundamentele geometrische prioriën een veelbelovende en generaliseerbare weg is naar VLMs met betrouwbaardere 3D-ruimtelijk redeneren.

English

Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.