ChatPaper.aiChatPaper

G^2VLM: Modello Linguistico Visivo Basato sulla Geometria con Ricostruzione 3D Unificata e Ragionamento Spaziale

G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

November 26, 2025
Autori: Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
cs.AI

Abstract

I modelli visione-linguaggio (VLM) mostrano ancora carenze di robustezza nell'intelligenza spaziale, dimostrando scarse prestazioni nelle attività di comprensione e ragionamento spaziale. Attribuiamo questo divario all'assenza di un processo di apprendimento della geometria visiva in grado di ricostruire lo spazio 3D a partire da immagini 2D. Presentiamo G²VLM, un modello visione-linguaggio ancorato alla geometria che colma due aspetti fondamentali dell'intelligenza spaziale: la ricostruzione spaziale 3D e la comprensione spaziale. G²VLM sfrutta nativamente caratteristiche geometriche visive 3D apprese per prevedere direttamente attributi 3D e potenziare i compiti di ragionamento spaziale mediante apprendimento in contesto e ragionamento intervallato. Il nostro design unificato è altamente scalabile per la comprensione spaziale: si addestra su abbondanti dati video e di immagini multi-vista, sfruttando al contempo i vantaggi di prerequisiti visivi 3D che tipicamente derivano solo da annotazioni difficili da raccogliere. I risultati sperimentali dimostrano che G²VLM è competente in entrambi i compiti, raggiungendo risultati comparabili ai modelli all'avanguardia per la ricostruzione 3D feed-forward e ottenendo risultati migliori o competitivi nelle attività di comprensione e ragionamento spaziale. Unificando un VLM semanticamente forte con compiti di visione artificiale 3D di basso livello, speriamo che G²VLM possa servire come solida baseline per la comunità e aprire la strada a future applicazioni, come l'editing di scene 3D.
English
Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.
PDF82December 1, 2025