SPACENUM: Revisitando a Compreensão Numérica Espacial em VLMs

Resumo

Modelos de Visão e Linguagem (VLMs) são cada vez mais implantados em ambientes incorporados, onde precisam produzir saídas numéricas como magnitudes de ação e coordenadas espaciais. Embora esses números pareçam significativos, ainda não está claro se essas saídas numéricas são genuinamente fundamentadas na percepção espacial. Portanto, neste trabalho, revisitamos a compreensão numérica espacial por meio do SpaceNum, uma estrutura unificada que captura duas configurações complementares: números como transições dinâmicas durante a exploração espacial e números como layouts estáticos no raciocínio espacial. Formulamos duas tarefas bidirecionais, Num2Space e Space2Num, para avaliar quão bem os VLMs mapeiam entre a estrutura espacial do lado visual e as representações numéricas do lado da linguagem. Estudamos sistematicamente se os VLMs atuais realmente entendem valores numéricos em contextos espaciais. Em transições dinâmicas e layouts estáticos, descobrimos que os modelos falham amplamente em fundamentar números em significado espacial e frequentemente apresentam desempenho próximo a um palpite aleatório. Por meio de análise de erros, análise de rastreamento de raciocínio e intervenções controladas, mostramos que os VLMs atuais dependem fortemente de pistas espaciais superficiais, têm dificuldade em construir representações estáveis cientes de coordenadas e não conseguem abstrair layouts espaciais estruturados a partir de observações visuais. Mostramos ainda que o raciocínio explícito proporciona apenas ganhos marginais, enquanto o ajuste pode melhorar parcialmente a compreensão numérica espacial e transferir para benchmarks externos de raciocínio espacial.

English

Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.