Geometrie für das räumliche Denken relevant machen

Zusammenfassung

Durch groß angelegtes Training gestärkt, erreichen Vision-Language-Modelle (VLMs) ein starkes Verständnis für Bilder und Videos, doch ihre Fähigkeit zur räumlichen Reasoning in statischen Szenen und dynamischen Videos bleibt begrenzt. Jüngste Fortschritte versuchen, diese Einschränkung zu überwinden, indem Geometrie-Tokens aus vortrainierten 3D-Foundation-Modellen in VLMs injiziert werden. Dennoch beobachten wir, dass naive Token-Fusion gefolgt von Standard-Fine-Tuning in dieser Forschungsrichtung solche geometrischen Hinweise für räumliches Reasoning oft unzureichend nutzt, da VLMs dazu neigen, sich stark auf 2D-Visual-Cues zu verlassen. In diesem Artikel schlagen wir GeoSR vor, ein Framework, das darauf abzielt, Geometrie bedeutsam zu machen, indem es VLMs dazu anregt, aktiv mit Geometrie-Tokens zu reasoning. GeoSR führt zwei Schlüsselkomponenten ein: (1) Geometry-Unleashing Masking, das strategisch Teile der 2D-Vision-Tokens während des Trainings maskiert, um nicht-geometrische Abkürzungen zu schwächen und das Modell zu zwingen, für räumliches Reasoning auf Geometrie-Tokens zurückzugreifen; und (2) Geometry-Guided Fusion, einen gated Routing-Mechanismus, der den Beitrag von Geometrie-Tokens in Regionen, in denen geometrische Evidenz kritisch ist, adaptiv verstärkt. Gemeinsam entfalten diese Designs das Potenzial von Geometrie-Tokens für räumliche Reasoning-Aufgaben. Umfangreiche Experimente auf Benchmarks für statisches und dynamisches räumliches Reasoning zeigen, dass GeoSR frühere Methoden konsequent übertrifft und durch die effektive Nutzung geometrischer Informationen neue State-of-the-Art-Leistungen etabliert. Die Projektseite ist unter https://suhzhang.github.io/GeoSR/ verfügbar.

English

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.

Geometrie für das räumliche Denken relevant machen

Make Geometry Matter for Spatial Reasoning

Zusammenfassung

Support