G^2VLM: Геометрически обоснованная визуально-лингвистическая модель с унифицированным 3D-реконструкцией и пространственным мышлением
G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
November 26, 2025
Авторы: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI
Аннотация
Модели «зрение-язык» (VLMs) по-прежнему демонстрируют недостаточную устойчивость в области пространственного интеллекта, показывая низкую производительность в задачах пространственного понимания и рассуждений. Мы связываем этот пробел с отсутствием процесса обучения визуальной геометрии, способного восстанавливать 3D-пространство из 2D-изображений. Мы представляем G²VLM — геометрически обоснованную модель «зрение-язык», которая объединяет два фундаментальных аспекта пространственного интеллекта: пространственную 3D-реконструкцию и пространственное понимание. G²VLM изначально использует изученные особенности 3D-визуальной геометрии для прямого предсказания 3D-атрибутов и улучшения задач пространственного рассуждения посредством контекстного обучения и чередующихся рассуждений. Наша унифицированная архитектура обладает высокой масштабируемостью для пространственного понимания: она обучается на обширных данных мульти-видовых изображений и видео, одновременно используя преимущества 3D-визуальных априорных знаний, которые обычно извлекаются только из труднодоступных аннотаций. Экспериментальные результаты демонстрируют, что G²VLM эффективна в обеих задачах, достигая сопоставимых с передовыми feed-forward моделями 3D-реконструкции результатов и показывая лучшие или конкурентоспособные результаты в различных задачах пространственного понимания и рассуждений. Объединяя семантически сильную VLM с низкоуровневыми задачами 3D-зрения, мы надеемся, что G²VLM послужит надежным базовым уровнем для научного сообщества и откроет возможности для новых приложений, таких как редактирование 3D-сцен.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.