ChatPaper.aiChatPaper

공간 추론을 위한 기하학의 중요성 강화

Make Geometry Matter for Spatial Reasoning

March 27, 2026
저자: Shihua Zhang, Qiuhong Shen, Shizun Wang, Tianbo Pan, Xinchao Wang
cs.AI

초록

대규모 학습을 바탕으로 한 시각-언어 모델(VLMs)은 강력한 이미지 및 동영상 이해 능력을 달성했으나, 정적 장면과 동적 동영상 모두에서 공간 추론을 수행하는 능력은 여전히 제한적입니다. 최근 연구들은 사전 학습된 3D 기초 모델로부터 기하학적 토큰을 VLMs에 주입하여 이러한 한계를 해결하려고 시도합니다. 그러나 이러한 접근법에서 단순한 토큰 융합과 표준 미세 조정을 수행할 경우, VLMs가 2D 시각 단서에 크게 의존하는 경향 때문에 공간 추론에此类 기하학적 단서가 충분히 활용되지 않는 것을 관찰했습니다. 본 논문에서는 VLMs가 기하학적 토큰을 능동적으로 활용하여 추론하도록 유도함으로써 기하학의 중요성을 부각시키는 GeoSR 프레임워크를 제안합니다. GeoSR은 두 가지 핵심 구성 요소를 도입합니다: (1) 기하학적 단서에 대한 의존성을 강제하기 위해 훈련 중 2D 시각 토큰의 일부를 전략적으로 가려 비기하학적 단순 연관성을 약화시키는 Geometry-Unleashing Masking과, (2) 기하학적 증거가 결정적인 영역에서 기하학적 토큰의 기여도를 적응적으로 증폭시키는 게이트 라우팅 메커니즘인 Geometry-Guided Fusion입니다. 이러한 설계는 공간 추론 작업에서 기하학적 토큰의 잠재력을 최대한 끌어냅니다. 정적 및 동적 공간 추론 벤치마크에서의 광범위한 실험을 통해 GeoSR이 기존 방법들을 일관되게 능가하며, 기하학적 정보를 효과적으로 활용하여 새로운 최첨단 성능을确立함을 입증했습니다. 프로젝트 페이지는 https://suhzhang.github.io/GeoSR/에서 확인할 수 있습니다.
English
Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.
PDF211April 1, 2026