G^2VLM: 幾何学に基づく視覚言語モデル - 統合的な3D再構成と空間推論を実現
G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
November 26, 2025
著者: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI
要旨
視覚言語モデル(VLM)は、空間的知能における頑健性を依然として欠いており、空間理解と推論タスクで低い性能を示しています。私たちはこの課題の原因を、2次元画像から3次元空間を再構築する視覚的幾何学学習プロセスの欠如にあると考えます。本論文では、空間知能の二つの基本側面である空間的3次元再構築と空間理解を統合する幾何学基盤型視覚言語モデルG^2VLMを提案します。G^2VLMは、学習された3次元視覚幾何学特徴をネイティブに活用し、3次元属性を直接予測するとともに、文脈内学習とインタリーブ推論を通じて空間推論タスクを強化します。私たちの統一設計は空間理解において高い拡張性を有しており、多数のマルチビュー画像・動画データで学習可能な一方、通常は収集が困難な注釈からしか得られない3次元視覚事前知識の利点を同時に活用できます。実験結果では、G^2VLMが両タスクに精通し、最先端の順伝播型3次元再構築モデルと同等の結果を達成するとともに、空間理解・推論タスク全体で優れたあるいは競争力のある結果を示しています。意味論的に強力なVLMと低レベル3次元視覚タスクを統合することで、G^2VLMがコミュニティの強力なベースラインとなり、3次元シーン編集のような将来の応用展開を促進することを期待します。
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.