SPACENUM : Revisiter la compréhension numérique spatiale dans les VLM

Résumé

Les modèles de vision-langage (VLMs) sont de plus en plus déployés dans des environnements incarnés, où ils doivent produire des sorties numériques telles que des amplitudes d'action et des coordonnées spatiales. Bien que ces nombres paraissent significatifs, il n'est pas clair que ces sorties numériques soient véritablement ancrées dans la perception spatiale. Ainsi, dans ce travail, nous revisitons la compréhension numérique spatiale à travers SpaceNum, un cadre unifié qui capture deux configurations complémentaires : les nombres en tant que transitions dynamiques lors de l'exploration spatiale, et les nombres en tant que dispositions statiques dans le raisonnement spatial. Nous formulons deux tâches bidirectionnelles, Num2Space et Space2Num, pour évaluer dans quelle mesure les VLMs effectuent une cartographie entre la structure spatiale du côté visuel et les représentations numériques du côté langagier. Nous étudions systématiquement si les VLMs actuels comprennent véritablement les valeurs numériques dans des contextes spatiaux. À travers les transitions dynamiques et les dispositions statiques, nous constatons que les modèles échouent largement à ancrer les nombres dans une signification spatiale et se comportent souvent proche d'une estimation aléatoire. Grâce à l'analyse des erreurs, à l'analyse des traces de raisonnement et à des interventions contrôlées, nous montrons que les VLMs actuels s'appuient fortement sur des indices spatiaux superficiels, peinent à construire des représentations stables et conscientes des coordonnées, et échouent à abstraire des dispositions spatiales structurées à partir d'observations visuelles. Nous montrons en outre que le raisonnement explicite n'apporte que des gains marginaux, tandis que le réglage (fine-tuning) peut améliorer partiellement la compréhension spatiale des nombres et se transférer à des référentiels externes de raisonnement spatial.

English

Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.