SpatialTree: Hoe ruimtelijke vaardigheden vertakken in MLLM's
SpatialTree: How Spatial Abilities Branch Out in MLLMs
December 23, 2025
Auteurs: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI
Samenvatting
De cognitieve wetenschap suggereert dat ruimtelijk vermogen zich progressief ontwikkelt – van perceptie naar redeneren en interactie. Toch blijft deze hiërarchie in multimodale taalmodelen (MLLMs) slecht begrepen, aangezien de meeste studies zich richten op een beperkte set taken. Wij introduceren SpatialTree, een op de cognitieve wetenschap geïnspireerde hiërarchie die ruimtelijke vaardigheden organiseert in vier niveaus: laagwaardige perceptie (L1), mentale mapping (L2), simulatie (L3) en agent-gerelateerde competentie (L4). Op basis van deze taxonomie construeren we de eerste capaciteitsgerichte hiërarchische benchmark, die mainstream MLLMs grondig evalueert op 27 subvaardigheden. De evaluatieresultaten onthullen een duidelijke structuur: L1-vaardigheden zijn grotendeels orthogonaal, terwijl vaardigheden op hogere niveaus sterk gecorreleerd zijn, wat wijst op een toenemende onderlinge afhankelijkheid. Via gerichte supervised fine-tuning ontdekken we een verrassende transferdynamiek: negatieve transfer binnen L1, maar sterke cross-level transfer van lage naar hoge vaardigheden met opmerkelijke synergie. Ten slotte onderzoeken we hoe de gehele hiërarchie verbeterd kan worden. We constateren dat naïeve reinforcement learning (RL) die uitgebreid "denken" aanmoedigt onbetrouwbaar is: het helpt bij complex redeneren, maar schaadt intuïtieve perceptie. We stellen een eenvoudige auto-denken-strategie voor die onnodige beraadslaging onderdrukt, waardoor RL consequent de prestaties op alle niveaus kan verbeteren. Door SpatialTree te bouwen, bieden we een proof-of-concept raamwerk voor het begrijpen en systematisch schalen van ruimtelijke vaardigheden in MLLMs.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.