Rendre la géométrie essentielle au raisonnement spatial

Résumé

Bien que les modèles vision-langage (VLM) bénéficient d'un entraînement à grande échelle pour obtenir une compréhension robuste des images et vidéos, leur capacité à effectuer un raisonnement spatial dans des scènes statiques et des vidéos dynamiques reste limitée. Des travaux récents tentent de pallier cette limite en injectant des tokens géométriques issus de modèles de fondation 3D préentraînés dans les VLM. Cependant, nous observons que la fusion naïve de tokens suivie d'un fine-tuning standard dans ces approches sous-utilise souvent ces indices géométriques pour le raisonnement spatial, car les VLM ont tendance à s'appuyer massivement sur des indices visuels 2D. Dans cet article, nous proposons GeoSR, un cadre conçu pour donner de l'importance à la géométrie en encourageant les VLM à raisonner activement avec les tokens géométriques. GeoSR introduit deux composants clés : (1) le Masquage Libérateur de Géométrie, qui masque stratégiquement une partie des tokens visuels 2D pendant l'entraînement pour affaiblir les raccourcis non géométriques et forcer le modèle à consulter les tokens géométriques pour le raisonnement spatial ; et (2) la Fusion Guidée par la Géométrie, un mécanisme de routage conditionné qui amplifie adaptativement la contribution des tokens géométriques dans les régions où l'évidence géométrique est critique. Ensemble, ces conceptions libèrent le potentiel des tokens géométriques pour les tâches de raisonnement spatial. Des expériences approfondies sur des benchmarks de raisonnement spatial statique et dynamique démontrent que GeoSR surpasse constamment les méthodes antérieures et établit de nouvelles performances de pointe en exploitant efficacement l'information géométrique. La page du projet est disponible à l'adresse https://suhzhang.github.io/GeoSR/.

English

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.

Rendre la géométrie essentielle au raisonnement spatial

Make Geometry Matter for Spatial Reasoning

Résumé

Support