Loc3R-VLM: Localizzazione Basata sul Linguaggio e Ragionamento 3D con Modelli Visione-Linguaggio

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi impressionanti nel collegare visione e linguaggio, ma continuano a incontrare difficoltà nella comprensione spaziale e nel ragionamento consapevole del punto di vista. I recenti tentativi mirano ad arricchire le rappresentazioni in input con indizi geometrici, piuttosto che insegnare esplicitamente ai modelli a ragionare nello spazio 3D. Introduciamo Loc3R-VLM, un framework che fornisce ai modelli visivo-linguistici 2D capacità avanzate di comprensione 3D a partire da input video monoculare. Ispirato dalla cognizione spaziale umana, Loc3R-VLM si basa su due obiettivi congiunti: la ricostruzione del layout globale per costruire una rappresentazione olistica della struttura della scena e la modellazione esplicita della situazione per ancorare la prospettiva egocentrica. Questi obiettivi forniscono una supervisione spaziale diretta che radica sia la percezione che il linguaggio in un contesto 3D. Per garantire la coerenza geometrica e l'allineamento su scala metrica, sfruttiamo priorità leggere sulla posa della camera estratte da un modello foundation 3D pre-addestrato. Loc3R-VLM raggiunge prestazioni all'avanguardia nella localizzazione basata sul linguaggio e supera gli approcci esistenti basati su 2D e video nei benchmark di question-answering generale e situato in 3D, dimostrando che il nostro framework di supervisione spaziale abilita una solida comprensione tridimensionale. Pagina del progetto: https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM: Localizzazione Basata sul Linguaggio e Ragionamento 3D con Modelli Visione-Linguaggio

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Abstract

Support