Jenseits von 3D VQAs: Einbringen von 3D-räumlichen Prioren in Vision-Language-Modelle für verbessertes geometrisches Denken

Zusammenfassung

Vision-Language-Modelle (VLMs) tun sich oft schwer mit robustem 3D-Raumverständnis. Gängige Methoden, die auf Feinabstimmung mit 3D-visuellen Frage-Antwort-Datensätzen (VQA) setzen, können sich an datensatzspezifische Verzerrungen anpassen, während die Integration spezialisierter 3D-visueller Encoder oft unflexibel und umständlich ist. In diesem Paper argumentieren wir, dass echtes räumliches Verständnis aus dem Erlernen fundamentaler geometrischer Vorwissen entstehen sollte – nicht nur aus hochrangiger VQA-Überwachung. Wir schlagen GASP (Geometric-Aware Spatial Priors) vor, ein Framework, das diese Vorwissen direkt in die Transformer-Ebenen des LLM einbringt. GASP verwendet einen kleinen Korrespondenzkopf, der als tiefes Überwachungssignal über alle Schichten hinweg angewendet wird, und wird mit einem dualen Ziel trainiert, das Ground-Truth-Geometrie aus großflächigen Videoszenen nutzt: Ein Kontrastivverlust auf Ground-Truth-Punktkorrespondenzen erzwingt 2D-Ansichtsinvarianz, während eine Tiefenkonsistenz-Überwachung 3D-geometrische Mehrdeutigkeiten auflöst. Unsere Analyse liefert zunächst eine Diagnose, die zeigt, dass die interne Korrespondenzgenauigkeit standardmäßiger VLMs sehr niedrig ist (oft unter 5 %). Anschließend demonstrieren wir, dass unser Training dieses Verhalten wesentlich verbessert, die schichtweise Korrespondenz auf über 70 % steigert und eine zeitliche Robustheit von über 85 % aufrechterhält, während Basislinien unter 5 % bleiben. Diese internen Verbesserungen führen zu signifikanten Zugewinnen bei nachgelagerten räumlichen Benchmarks, darunter +18,2 % im All-Angles Bench und +29,0 % im VSI-Bench – alles ohne Training mit 3D-VQA-Daten. Unsere Ergebnisse deuten darauf hin, dass das Lernen aus fundamentalen geometrischen Vorwissen ein vielversprechender und generalisierbarer Weg hin zu VLMs mit zuverlässigerem 3D-Raumverständnis ist.

English

Vision-Language Models (VLMs) often struggle with robust 3D spatial reasoning. Prevailing methods that rely on fine-tuning with 3D visual question-answering (VQA) datasets may overfit dataset-specific biases, while integrating specialized 3D visual encoders is often inflexible and cumbersome. In this paper, we argue that genuine spatial understanding should emerge from learning fundamental geometric priors, not only from high-level VQA supervision. We propose GASP (Geometric-Aware Spatial Priors), a framework that injects these priors directly into the LLM's transformer layers. GASP employs a small correspondence head, applied as a deep supervision signal across all layers, and is trained with a dual objective leveraging ground-truth geometry from large-scale video scenes: a contrastive loss on ground-truth point correspondences enforces 2D view-invariance, while a depth consistency supervision resolves 3D geometric ambiguities. Our analysis first provides a diagnostic showing that standard VLMs' internal correspondence matching accuracy is very low (often below 5%). We then demonstrate that our training substantially improves this behavior, boosting peak layer-wise correspondence to over 70% and maintaining over 85% temporal robustness while baselines remain below 5%. These internal improvements translate to significant gains on downstream spatial benchmarks including +18.2% on All-Angles Bench and +29.0% on VSI-Bench, all without training on any 3D VQA data. Our findings indicate that learning from fundamental geometric priors is a promising and generalizable pathway towards VLMs with more reliable 3D spatial reasoning.