ChatPaper.aiChatPaper

Loc3R-VLM: Localização Baseada em Linguagem e Raciocínio 3D com Modelos de Visão e Linguagem

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

March 18, 2026
Autores: Kevin Qu, Haozhe Qi, Mihai Dusmanu, Mahdi Rad, Rui Wang, Marc Pollefeys
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm feito progressos impressionantes na conexão entre visão e linguagem, mas ainda lutam com a compreensão espacial e o raciocínio consciente do ponto de vista. Esforços recentes visam aumentar as representações de entrada com pistas geométricas, em vez de ensinar explicitamente os modelos a raciocinar no espaço 3D. Apresentamos o Loc3R-VLM, uma estrutura que equipa os Modelos de Linguagem de Visão 2D com capacidades avançadas de compreensão 3D a partir de entrada de vídeo monocular. Inspirado pela cognição espacial humana, o Loc3R-VLM baseia-se em dois objetivos conjuntos: a reconstrução do layout global para construir uma representação holística da estrutura da cena e a modelagem explícita da situação para ancorar a perspectiva egocêntrica. Esses objetivos fornecem supervisão espacial direta que ancora tanto a percepção quanto a linguagem em um contexto 3D. Para garantir consistência geométrica e alinhamento em escala métrica, aproveitamos *priors* de pose de câmera leves extraídos de um modelo de fundação 3D pré-treinado. O Loc3R-VLM atinge um desempenho de ponta em localização baseada em linguagem e supera as abordagens existentes baseadas em 2D e vídeo em *benchmarks* de questionamento e resposta 3D geral e situado, demonstrando que nossa estrutura de supervisão espacial permite uma forte compreensão 3D. Página do projeto: https://kevinqu7.github.io/loc3r-vlm
English
Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm
PDF113March 23, 2026