ChatPaper.aiChatPaper

G^2VLM : Modèle Vision-Langage Ancré en Géométrie avec Reconstruction 3D Unifiée et Raisonnement Spatial

G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

November 26, 2025
papers.authors: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI

papers.abstract

Les modèles vision-langage (VLM) manquent encore de robustesse en intelligence spatiale, affichant des performances médiocres sur les tâches de compréhension et de raisonnement spatial. Nous attribuons cet écart à l'absence d'un processus d'apprentissage de la géométrie visuelle capable de reconstruire l'espace 3D à partir d'images 2D. Nous présentons G^2VLM, un modèle vision-langage ancré dans la géométrie qui relie deux aspects fondamentaux de l'intelligence spatiale : la reconstruction spatiale 3D et la compréhension spatiale. G^2VLM exploite nativement des caractéristiques géométriques visuelles 3D apprises pour prédire directement les attributs 3D et améliorer les tâches de raisonnement spatial via l'apprentissage en contexte et le raisonnement entrelacé. Notre conception unifiée est hautement évolutive pour la compréhension spatiale : elle s'entraîne sur d'abondantes données d'images multi-vues et de vidéos, tout en tirant parti des avantages des préconnaissances visuelles 3D qui sont généralement issues d'annotations difficiles à collecter. Les résultats expérimentaux démontrent que G^2VLM est compétent dans les deux tâches, obtenant des résultats comparables aux modèles de reconstruction 3D feed-forward de pointe et affichant des performances supérieures ou compétitives sur l'ensemble des tâches de compréhension et de raisonnement spatial. En unissant un VLM sémantiquement fort à des tâches de vision 3D de bas niveau, nous espérons que G^2VLM pourra servir de référence solide pour la communauté et ouvrir la voie à de futures applications, telles que l'édition de scènes 3D.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.
PDF82December 1, 2025