Loc3R-VLM: Taalgebaseerde Lokalisatie en 3D-redenering met Vision-Language-modellen

Samenvatting

Multimodale Large Language Models (MLLM's) hebben indrukwekkende vooruitgang geboekt in het verbinden van visie en taal, maar ze worstelen nog steeds met ruimtelijk begrip en gezichtspuntbewust redeneren. Recente inspanningen zijn erop gericht de invoerrepresentaties aan te vullen met geometrische aanwijzingen in plaats van modellen expliciet te leren redeneren in 3D-ruimte. Wij introduceren Loc3R-VLM, een raamwerk dat 2D Vision-Language Models uitrust met geavanceerde 3D-begripcapaciteiten op basis van monocular video-invoer. Geïnspireerd door de menselijke ruimtelijke cognitie, steunt Loc3R-VLM op twee gezamenlijke doelstellingen: globale lay-outreconstructie om een holistische representatie van de scènestructuur op te bouwen, en expliciete situatiemodellering om het egocentrische perspectief te verankeren. Deze doelstellingen bieden directe ruimtelijke supervisie die zowel perceptie als taal verankert in een 3D-context. Om geometrische consistentie en metrieke-schaaluitlijning te waarborgen, maken we gebruik van lichtgewicht camera-pose-priors die zijn geëxtraheerd uit een vooraf getraind 3D-foundationmodel. Loc3R-VLM behaalt state-of-the-art prestaties in op taal gebaseerde lokalisatie en overtreft bestaande 2D- en videogebaseerde benaderingen op gesitueerde en algemene 3D-vraag-antwoordbenchmarks, wat aantoont dat ons ruimtelijk supervisieraamwerk een sterk 3D-begrip mogelijk maakt. Projectpagina: https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM: Taalgebaseerde Lokalisatie en 3D-redenering met Vision-Language-modellen

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Samenvatting

Support