SPACENUM: Пересмотр пространственного числового понимания в VLMs

Аннотация

Визуально-языковые модели (VLM) все чаще развертываются в воплощенных средах, где им необходимо генерировать числовые выходные данные, такие как величины действий и пространственные координаты. Хотя эти числа кажутся осмысленными, остается неясным, действительно ли эти числовые выходные данные обусловлены пространственным восприятием. Поэтому в данной работе мы заново исследуем пространственное числовое понимание с помощью SpaceNum — единой рамки, охватывающей две взаимодополняющие постановки: числа как динамические переходы во время пространственного исследования и числа как статические компоновки в пространственном рассуждении. Мы формулируем две двунаправленные задачи, Num2Space и Space2Num, чтобы оценить, насколько хорошо VLM отображают взаимосвязь между пространственной структурой со стороны зрения и числовыми представлениями со стороны языка. Мы систематически изучаем, действительно ли современные VLM понимают числовые значения в пространственных контекстах. В рамках динамических переходов и статических компоновок мы обнаруживаем, что модели в значительной степени не могут привязать числа к пространственному смыслу и часто выполняют задачи на уровне случайного угадывания. С помощью анализа ошибок, анализа цепочек рассуждений и контролируемых вмешательств мы показываем, что современные VLM сильно полагаются на поверхностные пространственные подсказки, с трудом строят стабильные представления, учитывающие координаты, и не способны абстрагировать структурированные пространственные компоновки из визуальных наблюдений. Мы также показываем, что явное рассуждение дает лишь незначительные улучшения, в то время как тонкая настройка может частично улучшить пространственное числовое понимание и переноситься на внешние бенчмарки пространственного рассуждения.

English

Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.