G^2VLM: Geometriebasierte Sprachmodellierung für visuelle Daten mit vereinheitlichter 3D-Rekonstruktion und räumlichem Schließen
G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
November 26, 2025
papers.authors: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI
papers.abstract
Vision-Language Models (VLMs) zeigen nach wie vor Schwächen in der räumlichen Intelligenz, was sich in einer geringen Leistung bei Aufgaben zum räumlichen Verständnis und Schlussfolgern äußert. Wir führen diese Lücke auf das Fehlen eines visuellen Geometrielernprozesses zurück, der in der Lage ist, den 3D-Raum aus 2D-Bildern zu rekonstruieren. Wir stellen G^2VLM vor, ein geometriebasiertes Vision-Language-Modell, das zwei grundlegende Aspekte der räumlichen Intelligenz verbindet: die räumliche 3D-Rekonstruktion und das räumliche Verständnis. G^2VLM nutzt native gelernte visuelle 3D-Geometriemerkmale, um direkt 3D-Attribute vorherzusagen und räumliche Reasoning-Aufgaben durch In-Context-Lernen und verschachteltes Reasoning zu verbessern. Unser einheitlicher Ansatz ist hochskalierbar für das räumliche Verständnis: Er trainiert mit umfangreichen Multi-View-Bild- und Videodaten und nutzt gleichzeitig die Vorteile visueller 3D-Priors, die typischerweise nur aus schwer zu erhebenden Annotationen abgeleitet werden. Experimentelle Ergebnisse zeigen, dass G^2VLM in beiden Aufgabenbereichen kompetent ist, vergleichbare Ergebnisse mit state-of-the-art Forward-3D-Rekonstruktionsmodellen erzielt und bessere oder wettbewerbsfähige Ergebnisse über verschiedene Aufgaben zum räumlichen Verständnis und Reasoning hinweg erreicht. Indem wir ein semantisch starkes VLM mit Low-Level-3D-Vision-Aufgaben vereinen, hoffen wir, dass G^2VLM als starke Baseline für die Community dienen und zukünftig weitere Anwendungen, wie die Bearbeitung von 3D-Szenen, ermöglichen kann.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.