Loc3R-VLM: Языковая локализация и 3D-рассуждение с использованием моделей «визуальный язык»

Аннотация

Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющий прогресс в связывании зрения и языка, однако они по-прежнему испытывают трудности с пространственным пониманием и рассуждениями с учетом точки обзора. Современные подходы направлены на обогащение входных представлений геометрическими подсказками, а не на явное обучение моделей рассуждению в 3D-пространстве. Мы представляем Loc3R-VLM — фреймворк, который оснащает 2D визуально-языковые модели расширенными возможностями трехмерного понимания на основе входных данных с монокулярного видео. Вдохновляясь пространственным познанием человека, Loc3R-VLM опирается на две совместные цели: реконструкцию глобальной компоновки для построения целостного представления о структуре сцены и явное моделирование ситуации для закрепления эгоцентрической перспективы. Эти цели обеспечивают прямое пространственное управление, которое связывает как восприятие, так и язык в трехмерном контексте. Для обеспечения геометрической согласованности и метрического масштабного выравнивания мы используем легковесные априорные данные о позе камеры, извлеченные из предварительно обученной 3D-фундаментальной модели. Loc3R-VLM достигает наилучших результатов в локализации на основе языка и превосходит существующие подходы, основанные на 2D и видео, в тестах на ситуационные и общие 3D вопросы и ответы, демонстрируя, что наша система пространственного управления обеспечивает глубокое трехмерное понимание. Страница проекта: https://kevinqu7.github.io/loc3r-vlm

English

Multimodal Large Language Models (MLLMs) have made impressive progress in connecting vision and language, but they still struggle with spatial understanding and viewpoint-aware reasoning. Recent efforts aim to augment the input representations with geometric cues rather than explicitly teaching models to reason in 3D space. We introduce Loc3R-VLM, a framework that equips 2D Vision-Language Models with advanced 3D understanding capabilities from monocular video input. Inspired by human spatial cognition, Loc3R-VLM relies on two joint objectives: global layout reconstruction to build a holistic representation of the scene structure, and explicit situation modeling to anchor egocentric perspective. These objectives provide direct spatial supervision that grounds both perception and language in a 3D context. To ensure geometric consistency and metric-scale alignment, we leverage lightweight camera pose priors extracted from a pre-trained 3D foundation model. Loc3R-VLM achieves state-of-the-art performance in language-based localization and outperforms existing 2D- and video-based approaches on situated and general 3D question-answering benchmarks, demonstrating that our spatial supervision framework enables strong 3D understanding. Project page: https://kevinqu7.github.io/loc3r-vlm

Loc3R-VLM: Языковая локализация и 3D-рассуждение с использованием моделей «визуальный язык»

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Аннотация

Support