Maak Geometrie Belangrijk voor Ruimtelijk Redeneren

Samenvatting

Hoewel vision-language modellen (VLM's) dankzij grootschalige training sterke prestaties leveren in beeld- en videobegrip, blijft hun vermogen tot ruimtelijk redeneren in zowel statische scènes als dynamische video's beperkt. Recente ontwikkelingen proberen deze beperking te ondervangen door geometrietokens uit voorgetrainde 3D-basismodellen in VLM's te injecteren. Wij observeren echter dat een naïeve tokenfusie gevolgd door standaard finetuning in dit onderzoeksveld dergelijke geometrische aanwijzingen vaak onderbenut laat voor ruimtelijk redeneren, omdat VLM's de neiging hebben sterk op 2D-visuele aanwijzingen te vertrouwen. In dit artikel stellen wij GeoSR voor, een raamwerk ontworpen om geometrie relevant te maken door VLM's aan te moedigen actief te redeneren met geometrietokens. GeoSR introduceert twee kernelementen: (1) Geometry-Unleashing Masking, dat strategisch delen van 2D-visietokens tijdens de training maskeert om niet-geometrische shortcuts te verzwakken en het model te dwingen geometrietokens te raadplegen voor ruimtelijk redeneren; en (2) Geometry-Guided Fusion, een gegateerd routeringsmechanisme dat de bijdragen van geometrietokens adaptief versterkt in regio's waar geometrisch bewijs cruciaal is. Gezamenlijk benutten deze ontwerpen het potentieel van geometrietokens voor ruimtelijke redeneertaken. Uitgebreide experimenten op benchmarks voor zowel statisch als dynamisch ruimtelijk redeneren tonen aan dat GeoSR consistent beter presteert dan eerdere methoden en nieuwe state-of-the-art prestaties vestigt door effectief gebruik te maken van geometrische informatie. De projectpagina is beschikbaar op https://suhzhang.github.io/GeoSR/.

English

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.

Maak Geometrie Belangrijk voor Ruimtelijk Redeneren

Make Geometry Matter for Spatial Reasoning

Samenvatting

Support