SPACENUM: Neubetrachtung des räumlichen numerischen Verständnisses in VLMs

Zusammenfassung

Vision-Sprach-Modelle (VLMs) werden zunehmend in verkörperten Umgebungen eingesetzt, in denen sie numerische Ausgaben wie Aktionsstärken und räumliche Koordinaten erzeugen müssen. Obwohl diese Zahlen bedeutungsvoll erscheinen, bleibt unklar, ob diese numerischen Ausgaben tatsächlich in der räumlichen Wahrnehmung verankert sind. Daher betrachten wir in dieser Arbeit das räumliche numerische Verständnis mittels SpaceNum neu – einem einheitlichen Rahmenwerk, das zwei komplementäre Szenarien abdeckt: Zahlen als dynamische Übergänge während der räumlichen Exploration und Zahlen als statische Anordnungen beim räumlichen Schließen. Wir formulieren zwei bidirektionale Aufgaben, Num2Space und Space2Num, um zu bewerten, wie gut VLMs zwischen visuell-räumlicher Struktur und sprachseitigen numerischen Repräsentationen abbilden können. Wir untersuchen systematisch, ob aktuelle VLMs numerische Werte in räumlichen Kontexten wirklich verstehen. Sowohl bei dynamischen Übergängen als auch bei statischen Anordnungen zeigen die Modelle, dass sie Zahlen weitgehend nicht räumlich verankern können und oft nahe an Zufallsniveau arbeiten. Durch Fehleranalyse, Analyse der Argumentationspfade und kontrollierte Interventionen zeigen wir, dass aktuelle VLMs stark auf oberflächliche räumliche Hinweise angewiesen sind, Schwierigkeiten haben, stabile koordinatenbewusste Repräsentationen aufzubauen, und es versäumen, strukturierte räumliche Anordnungen aus visuellen Beobachtungen zu abstrahieren. Wir zeigen ferner, dass explizites Schließen nur marginale Verbesserungen bringt, während Feintuning das räumlich-numerische Verständnis teilweise verbessern und auf externe Benchmarks zum räumlichen Schließen übertragen kann.

English

Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.