Сделайте геометрию значимой для пространственного мышления

Аннотация

Обученные на больших объемах данных, визуально-языковые модели (VLM) демонстрируют высокую эффективность в понимании изображений и видео, однако их способность к пространственным рассуждениям как в статических сценах, так и в динамических видео остается ограниченной. Последние достижения пытаются преодолеть это ограничение путем внедрения геометрических токенов из предварительно обученных 3D-моделей в VLM. Тем не менее, мы наблюдаем, что в рамках этого подхода наивное слияние токенов с последующей стандартной дообучкой часто приводит к недостаточному использованию таких геометрических подсказок для пространственных рассуждений, поскольку VLM склонны в значительной степени полагаться на 2D-визуальные признаки. В данной статье мы предлагаем GeoSR — фреймворк, разработанный для повышения значимости геометрии путем побуждения VLM к активному использованию геометрических токенов в рассуждениях. GeoSR включает два ключевых компонента: (1) *Маскирование для раскрытия геометрии* (Geometry-Unleashing Masking), которое стратегически маскирует часть 2D-визуальных токенов во время обучения, чтобы ослабить негеометрические сокращения и заставить модель обращаться к геометрическим токенам для пространственных рассуждений; и (2) *Геометрически-направленное слияние* (Geometry-Guided Fusion) — механизм управляемой маршрутизации, который адаптивно усиливает вклад геометрических токенов в областях, где геометрические данные имеют критическое значение. В совокупности эти решения раскрывают потенциал геометрических токенов для задач пространственного рассуждения. Многочисленные эксперименты на бенчмарках для статических и динамических пространственных рассуждений демонстрируют, что GeoSR стабильно превосходит предыдущие методы и устанавливает новое состояние искусства за счет эффективного использования геометрической информации. Страница проекта доступна по адресу https://suhzhang.github.io/GeoSR/.

English

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.

Сделайте геометрию значимой для пространственного мышления

Make Geometry Matter for Spatial Reasoning

Аннотация

Support