ChatPaper.aiChatPaper

G^2VLM: 통합 3D 재구성 및 공간 추론을 지원하는 기하학 기반 시각-언어 모델

G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

November 26, 2025
저자: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI

초록

비전-언어 모델(VLM)은 여전히 공간 지능 측면에서 강건성이 부족하며, 공간 이해 및 추론 과제에서 낮은 성능을 보입니다. 우리는 이러한 격차가 2D 이미지로부터 3D 공간을 재구성할 수 있는 시각 기하학 학습 과정의 부재에서 비롯된다고 분석합니다. 본 논문에서는 공간 지능의 두 가지 기본 측면인 공간 3D 재구성과 공간 이해를 연결하는 기하학 기반 비전-언어 모델인 G^2VLM을 제안합니다. G^2VLM은 학습된 3D 시각 기하학 특징을 기본적으로 활용하여 3D 속성을 직접 예측하고, 인-컨텍스트 학습 및 교차 추론을 통해 공간 추론 과제의 성능을 향상시킵니다. 우리의 통합 설계는 공간 이해 측면에서 높은 확장성을 갖습니다: 풍부한 다중 시점 이미지 및 비디오 데이터로 학습하는 동시에, 일반적으로 수집이 어려운 주해 데이터에서만 파생되는 3D 시각 사전 지식의 이점을 동시에 활용합니다. 실험 결과는 G^2VLM이 두 과제 모두에서 능숙함을 보여주며, 최신 피드포워드 3D 재구성 모델과 비슷한 수준의 결과를 달성하고 공간 이해 및 추론 과제 전반에서 더 우수하거나 경쟁력 있는 결과를Achieve합니다. 의미론적으로 강력한 VLM과 저수준 3D 비전 과제를 통합함으로써, G^2VLM이 해당 분야의 강력한 기준 모델로 역할을 수행하고 3D 장면 편집과 같은 더 많은 미래 응용 프로그램을 개척하는 데 기여하기를 바랍니다.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.
PDF82December 1, 2025