Loc3R-VLM: Sprachbasierte Lokalisierung und 3D-Begründung mit Vision-Language-Modellen

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben beeindruckende Fortschritte bei der Verknüpfung von Vision und Sprache erzielt, tun sich jedoch nach wie vor schwer mit räumlichem Verständnis und perspektivenbewusstem Schlussfolgern. Jüngste Bestrebungen zielen darauf ab, die Eingaberepräsentationen mit geometrischen Hinweisen anzureichern, anstatt Modelle explizit zum Schlussfolgern im 3D-Raum zu befähigen. Wir stellen Loc3R-VLM vor, ein Framework, das 2D-Vision-Language-Models mit erweiterten 3D-Verständnisfähigkeiten auf Basis monokularer Videoeingaben ausstattet. Inspiriert von der menschlichen Raumkognition basiert Loc3R-VLM auf zwei gemeinsamen Zielen: globaler Layout-Rekonstruktion zur Erstellung einer ganzheitlichen Repräsentation der Szenenstruktur und expliziter Situationsmodellierung zur Verankerung der egozentrischen Perspektive. Diese Ziele bieten eine direkte räumliche Supervision, die sowohl Wahrnehmung als auch Sprache in einem 3D-Kontext verankert. Um geometrische Konsistenz und metrische Maßstabsausrichtung zu gewährleisten, nutzen wir leichte Kameraposen-Priors, die aus einem vortrainierten 3D-Foundation-Model extrahiert werden. Loc3R-VLM erzielt state-of-the-art Leistung in sprachbasierter Lokalisierung und übertrifft bestehende 2D- und videobasierte Ansätze auf Benchmarks für situiertes und allgemeines 3D-Frage-Antworten. Dies zeigt, dass unser räumliches Supervision-Framework ein starkes 3D-Verständnis ermöglicht. Projektseite: https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM: Sprachbasierte Lokalisierung und 3D-Begründung mit Vision-Language-Modellen

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Zusammenfassung

Support