Rendere la Geometria Significativa per il Ragionamento Spaziale
Make Geometry Matter for Spatial Reasoning
March 27, 2026
Autori: Shihua Zhang, Qiuhong Shen, Shizun Wang, Tianbo Pan, Xinchao Wang
cs.AI
Abstract
Grazie al training su larga scala, i modelli visione-linguaggio (VLM) raggiungono una solida comprensione di immagini e video, ma la loro capacità di eseguire ragionamenti spaziali in scene statiche e video dinamici rimane limitata. I recenti progressi tentano di superare questa limitazione iniettando token geometrici da modelli fondazionali 3D preaddestrati nei VLM. Tuttavia, osserviamo che in questo filone di ricerca, una fusione ingenua dei token seguita dalla fine-tuning standard spesso porta a uno sfruttamento insufficiente di tali indizi geometrici per il ragionamento spaziale, poiché i VLM tendono a fare molto affidamento sugli indizi visivi 2D. In questo articolo, proponiamo GeoSR, un framework progettato per dare importanza alla geometria incoraggiando i VLM a ragionare attivamente con i token geometrici. GeoSR introduce due componenti chiave: (1) Geometry-Unleashing Masking, che maschera strategicamente porzioni dei token visivi 2D durante il training per indebolire le scorciatoie non geometriche e costringere il modello a consultare i token geometrici per il ragionamento spaziale; e (2) Geometry-Guided Fusion, un meccanismo di instradamento controllato da gate che amplifica adattivamente il contributo dei token geometrici nelle regioni in cui l'evidenza geometrica è critica. Insieme, questi progetti liberano il potenziale dei token geometrici per i compiti di ragionamento spaziale. Esperimenti estesi su benchmark di ragionamento spaziale sia statici che dinamici dimostrano che GeoSR supera costantemente i metodi precedenti e stabilisce nuove performance state-of-the-art sfruttando efficacemente l'informazione geometrica. La pagina del progetto è disponibile all'indirizzo https://suhzhang.github.io/GeoSR/.
English
Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.