Loc3R-VLM : Localisation par le Langage et Raisonnement 3D avec des Modèles Vision-Langage

Résumé

Les modèles de langage multimodaux (MLLM) ont réalisé des progrès impressionnants dans la connexion entre la vision et le langage, mais ils peinent encore avec la compréhension spatiale et le raisonnement tenant compte du point de vue. Les efforts récents visent à enrichir les représentations d'entrée avec des indices géométriques plutôt que d'enseigner explicitement aux modèles à raisonner dans l'espace 3D. Nous présentons Loc3R-VLM, un cadre qui équipe les modèles vision-langage 2D de capacités avancées de compréhension 3D à partir d'une entrée vidéo monoculaire. Inspiré par la cognition spatiale humaine, Loc3R-VLM repose sur deux objectifs conjoints : la reconstruction de la disposition globale pour construire une représentation holistique de la structure de la scène, et la modélisation explicite de la situation pour ancrer la perspective égocentrique. Ces objectifs fournissent une supervision spatiale directe qui ancre à la fois la perception et le langage dans un contexte 3D. Pour garantir la cohérence géométrique et l'alignement à l'échelle métrique, nous exploitons des préalables légers sur la pose de la caméra, extraits d'un modèle de fondation 3D pré-entraîné. Loc3R-VLM obtient des performances de pointe en localisation basée sur le langage et surpasse les approches existantes basées sur la 2D et la vidéo sur des benchmarks de question-réponse situés et généraux en 3D, démontrant que notre cadre de supervision spatiale permet une solide compréhension 3D. Page du projet : https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM : Localisation par le Langage et Raisonnement 3D avec des Modèles Vision-Langage

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Résumé

Support