SPACENUM: Revisitando la Comprensión Numérica Espacial en los VLM

Resumen

Los Modelos de Visión-Lenguaje (VLMs) se despliegan cada vez más en entornos embodied, donde deben producir salidas numéricas como magnitudes de acción y coordenadas espaciales. Aunque estos números parecen tener significado, sigue sin estar claro si dichas salidas numéricas están genuinamente fundamentadas en la percepción espacial. Por ello, en este trabajo revisitamos la comprensión numérica espacial a través de SpaceNum, un marco unificado que captura dos configuraciones complementarias: los números como transiciones dinámicas durante la exploración espacial, y los números como disposiciones estáticas en el razonamiento espacial. Formulamos dos tareas bidireccionales, Num2Space y Space2Num, para evaluar qué tan bien los VLMs mapean entre la estructura espacial del lado visual y las representaciones numéricas del lado lingüístico. Estudiamos sistemáticamente si los VLMs actuales realmente comprenden los valores numéricos en contextos espaciales. Tanto en transiciones dinámicas como en disposiciones estáticas, encontramos que los modelos fallan en gran medida al fundamentar los números en un significado espacial y a menudo se desempeñan cerca de una adivinación aleatoria. Mediante análisis de errores, análisis de trazas de razonamiento e intervenciones controladas, mostramos que los VLMs actuales dependen en gran medida de señales espaciales superficiales, tienen dificultades para construir representaciones estables conscientes de coordenadas y no logran abstraer disposiciones espaciales estructuradas a partir de observaciones visuales. Además, demostramos que el razonamiento explícito proporciona solo mejoras marginales, mientras que el ajuste puede mejorar parcialmente la comprensión numérica espacial y transferirse a benchmarks externos de razonamiento espacial.

English

Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.