ChatPaper.aiChatPaper

G^2VLM: Modelo de Lenguaje Visual con Base Geométrica para Reconstrucción 3D Unificada y Razonamiento Espacial

G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

November 26, 2025
Autores: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI

Resumen

Los Modelos de Visión-Lenguaje (VLM) aún carecen de solidez en inteligencia espacial, mostrando un rendimiento deficiente en tareas de comprensión y razonamiento espacial. Atribuimos esta brecha a la ausencia de un proceso de aprendizaje de geometría visual capaz de reconstruir el espacio 3D a partir de imágenes 2D. Presentamos G²VLM, un modelo de visión-lenguaje anclado en geometría que conecta dos aspectos fundamentales de la inteligencia espacial: la reconstrucción espacial 3D y la comprensión espacial. G²VLM aprovecha de forma nativa características de geometría visual 3D aprendidas para predecir directamente atributos 3D y mejorar las tareas de razonamiento espacial mediante aprendizaje en contexto y razonamiento intercalado. Nuestro diseño unificado es altamente escalable para la comprensión espacial: se entrena con abundantes datos de vídeo e imágenes multi-vista, mientras aprovecha simultáneamente los beneficios de los priores visuales 3D que normalmente solo se derivan de anotaciones difíciles de obtener. Los resultados experimentales demuestran que G²VLM es competente en ambas tareas, logrando resultados comparables a los modelos de reconstrucción 3D de última generación de tipo feed-forward, y obteniendo resultados mejores o competitivos en diversas tareas de comprensión y razonamiento espacial. Al unificar un VLM semánticamente fuerte con tareas de visión 3D de bajo nivel, esperamos que G²VLM pueda servir como una base sólida para la comunidad y desbloquear futuras aplicaciones, como la edición de escenas 3D.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.
PDF82December 1, 2025