Faça a Geometria Importar para o Raciocínio Espacial

Resumo

Impulsionados pelo treinamento em larga escala, os modelos visão-linguagem (VLMs) alcançam uma forte compreensão de imagens e vídeos, mas sua capacidade de realizar raciocínio espacial tanto em cenas estáticas quanto em vídeos dinâmicos permanece limitada. Avanços recentes tentam contornar essa limitação injetando tokens geométricos de modelos fundamentais 3D pré-treinados nos VLMs. No entanto, observamos que a fusão ingênua de tokens seguida pelo ajuste fino padrão nessa linha de pesquisa frequentemente subutiliza tais pistas geométricas para o raciocínio espacial, pois os VLMs tendem a depender fortemente de pistas visuais 2D. Neste artigo, propomos o GeoSR, uma estrutura projetada para fazer a geometria importar, incentivando os VLMs a raciocinarem ativamente com tokens geométricos. O GeoSR introduz dois componentes principais: (1) o Mascaramento de Liberação Geométrica, que mascara estrategicamente porções dos tokens visuais 2D durante o treinamento para enfraquecer atalhos não geométricos e forçar o modelo a consultar os tokens geométricos para o raciocínio espacial; e (2) a Fusão Guiada por Geometria, um mecanismo de roteamento com portas que amplifica adaptativamente as contribuições dos tokens geométricos em regiões onde a evidência geométrica é crítica. Juntos, esses projetos liberam o potencial dos tokens geométricos para tarefas de raciocínio espacial. Experimentos extensos em benchmarks de raciocínio espacial estático e dinâmico demonstram que o GeoSR supera consistentemente métodos anteriores e estabelece um novo estado da arte em desempenho ao aproveitar efetivamente as informações geométricas. A página do projeto está disponível em https://suhzhang.github.io/GeoSR/.

English

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.