SPACENUM: Het ruimtelijk numeriek begrip in VLM's opnieuw bekeken

Samenvatting

Visie-Taalmodellen (VTM's) worden steeds vaker ingezet in belichaamde omgevingen, waar zij numerieke outputs moeten produceren zoals actie-omvangen en ruimtelijke coördinaten. Hoewel deze getallen betekenisvol lijken, blijft het onduidelijk of deze numerieke outputs werkelijk geworteld zijn in ruimtelijke perceptie. Daarom herzien we in dit werk het ruimtelijk numeriek begrip via SpaceNum, een uniform raamwerk dat twee complementaire instellingen omvat: getallen als dynamische overgangen tijdens ruimtelijke verkenning, en getallen als statische lay-outs in ruimtelijk redeneren. We formuleren twee bidirectionele taken, Getal2Ruimte en Ruimte2Getal, om te evalueren hoe goed VTM's kaarten tussen ruimtelijke structuur aan de visiezijde en numerieke representaties aan de taalzijde. We bestuderen systematisch of huidige VTM's werkelijk numerieke waarden in ruimtelijke contexten begrijpen. Over dynamische overgangen en statische lay-outs heen vinden we dat modellen grotendeels falen om getallen in ruimtelijke betekenis te verankeren en vaak presteren dicht bij willekeurige gok. Door foutenanalyse, redeneerspooranalyse en gecontroleerde interventies tonen we aan dat huidige VTM's sterk leunen op ondiepe ruimtelijke aanwijzingen, moeite hebben met het opbouwen van stabiele coördinaatbewuste representaties, en falen in het abstraheren van gestructureerde ruimtelijke lay-outs uit visuele waarnemingen. We tonen verder aan dat expliciet redeneren slechts marginale winst oplevert, terwijl afstemming het ruimtelijk numeriek begrip gedeeltelijk kan verbeteren en kan overdragen naar externe ruimtelijke redeneerbenchmarks.

English

Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.