Loc3R-VLM: Localização Baseada em Linguagem e Raciocínio 3D com Modelos de Visão e Linguagem

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm feito progressos impressionantes na conexão entre visão e linguagem, mas ainda lutam com a compreensão espacial e o raciocínio consciente do ponto de vista. Esforços recentes visam aumentar as representações de entrada com pistas geométricas, em vez de ensinar explicitamente os modelos a raciocinar no espaço 3D. Apresentamos o Loc3R-VLM, uma estrutura que equipa os Modelos de Linguagem de Visão 2D com capacidades avançadas de compreensão 3D a partir de entrada de vídeo monocular. Inspirado pela cognição espacial humana, o Loc3R-VLM baseia-se em dois objetivos conjuntos: a reconstrução do layout global para construir uma representação holística da estrutura da cena e a modelagem explícita da situação para ancorar a perspectiva egocêntrica. Esses objetivos fornecem supervisão espacial direta que ancora tanto a percepção quanto a linguagem em um contexto 3D. Para garantir consistência geométrica e alinhamento em escala métrica, aproveitamos *priors* de pose de câmera leves extraídos de um modelo de fundação 3D pré-treinado. O Loc3R-VLM atinge um desempenho de ponta em localização baseada em linguagem e supera as abordagens existentes baseadas em 2D e vídeo em *benchmarks* de questionamento e resposta 3D geral e situado, demonstrando que nossa estrutura de supervisão espacial permite uma forte compreensão 3D. Página do projeto: https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM: Localização Baseada em Linguagem e Raciocínio 3D com Modelos de Visão e Linguagem

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Resumo

Support