ChatPaper.aiChatPaper

SpatialTree : Comment les capacités spatiales se ramifient dans les MLLM

SpatialTree: How Spatial Abilities Branch Out in MLLMs

December 23, 2025
papers.authors: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI

papers.abstract

Les sciences cognitives suggèrent que la capacité spatiale se développe progressivement - de la perception au raisonnement et à l'interaction. Pourtant, dans les modèles de langage multimodaux (MLLM), cette hiérarchie reste mal comprise, la plupart des études se concentrant sur un ensemble restreint de tâches. Nous présentons SpatialTree, une hiérarchie inspirée des sciences cognitives qui organise les capacités spatiales en quatre niveaux : perception de bas niveau (L1), cartographie mentale (L2), simulation (L3) et compétence agentique (L4). Sur la base de cette taxonomie, nous construisons le premier benchmark hiérarchique centré sur les capacités, évaluant minutieusement les MLLM grand public à travers 27 sous-capacités. Les résultats de l'évaluation révèlent une structure claire : les compétences de L1 sont largement orthogonales, tandis que les compétences de niveau supérieur sont fortement corrélées, indiquant une interdépendance croissante. Grâce à un fine-tuning supervisé ciblé, nous découvrons une dynamique de transfert surprenante : un transfert négatif au sein de L1, mais un fort transfert trans-niveaux des capacités de bas niveau vers les capacités de haut niveau, avec une synergie notable. Enfin, nous explorons comment améliorer l'ensemble de la hiérarchie. Nous constatons qu'un apprentissage par renforcement (RL) naïf qui encourage une « réflexion » extensive est peu fiable : il aide le raisonnement complexe mais nuit à la perception intuitive. Nous proposons une stratégie simple d'auto-réflexion qui supprime les délibérations inutiles, permettant au RL d'améliorer constamment les performances à tous les niveaux. En construisant SpatialTree, nous fournissons un cadre de preuve de concept pour comprendre et développer systématiquement les capacités spatiales dans les MLLM.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.
PDF342December 25, 2025