G^2VLM: Geometrie-Gegrond Visie-Taalmodel met Geïntegreerde 3D-Reconstructie en Ruimtelijk Redeneren
G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
November 26, 2025
Auteurs: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI
Samenvatting
Vision-Language Models (VLMs) vertonen nog steeds een gebrek aan robuustheid op het gebied van ruimtelijke intelligentie, waarbij ze zwakke prestaties leveren bij taken voor ruimtelijk begrip en redeneren. Wij schrijven deze kloof toe aan de afwezigheid van een leerproces voor visuele geometrie dat in staat is 3D-ruimte te reconstrueren uit 2D-beelden. Wij presenteren G²VLM, een geometrie-gegrond visueel-taalmodel dat twee fundamentele aspecten van ruimtelijke intelligentie met elkaar verbindt: ruimtelijke 3D-reconstructie en ruimtelijk begrip. G²VLM benut intrinsiek geleerde 3D visuele geometrie-kenmerken om direct 3D-attributen te voorspellen en ruimtelijke redeneertaken te verbeteren via in-context leren en interleaved reasoning. Onze uniforme ontwerpaanpak is zeer schaalbaar voor ruimtelijk begrip: het model traint op overvloedige multi-view beeld- en videogegevens, terwijl het tegelijkertijd profiteert van 3D visuele priors die doorgaans alleen afkomstig zijn uit moeilijk te verzamelen annotaties. Experimentele resultaten tonen aan dat G²VLM bedreven is in beide taken, met vergelijkbare resultaten als state-of-the-art feed-forward 3D-reconstructiemodellen en betere of competitieve resultaten behaalt op diverse taken voor ruimtelijk begrip en redeneren. Door een semantisch sterke VLM te verenigen met low-level 3D-visietaken, hopen wij dat G²VLM kan dienen als een sterke basislijn voor de onderzoeksgemeenschap en meer toekomstige toepassingen mogelijk maakt, zoals 3D-scènebewerking.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.