Loc3R-VLM: Localización Basada en Lenguaje y Razonamiento 3D con Modelos de Visión y Lenguaje

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un progreso impresionante en la conexión entre visión y lenguaje, pero aún presentan dificultades en la comprensión espacial y el razonamiento consciente del punto de vista. Los esfuerzos recientes buscan aumentar las representaciones de entrada con indicios geométricos en lugar de enseñar explícitamente a los modelos a razonar en el espacio 3D. Presentamos Loc3R-VLM, un marco que dota a los Modelos de Lenguaje Visual 2D con capacidades avanzadas de comprensión 3D a partir de entradas de video monocular. Inspirado por la cognición espacial humana, Loc3R-VLM se basa en dos objetivos conjuntos: la reconstrucción de la disposición global para construir una representación holística de la estructura de la escena, y el modelado explícito de la situación para anclar la perspectiva egocéntrica. Estos objetivos proporcionan una supervisión espacial directa que fundamenta tanto la percepción como el lenguaje en un contexto 3D. Para garantizar la coherencia geométrica y la alineación a escala métrica, aprovechamos *priors* ligeros de pose de cámara extraídos de un modelo fundacional 3D preentrenado. Loc3R-VLM logra un rendimiento de vanguardia en localización basada en lenguaje y supera a los enfoques existentes basados en 2D y video en benchmarks de preguntas y respuestas 3D generales y situadas, demostrando que nuestro marco de supervisión espacial permite una sólida comprensión 3D. Página del proyecto: https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM: Localización Basada en Lenguaje y Razonamiento 3D con Modelos de Visión y Lenguaje

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Resumen

Support