ChatPaper.aiChatPaper

SpatialTree: MLLMにおける空間能力の分岐構造

SpatialTree: How Spatial Abilities Branch Out in MLLMs

December 23, 2025
著者: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI

要旨

認知科学によれば、空間能力は知覚から推論、相互作用へと段階的に発達することが示唆されている。しかしマルチモーダル大規模言語モデル(MLLM)において、この階層構造は十分に理解されていない。なぜならほとんどの研究が限られたタスクに焦点を当てているからである。本研究では、空間能力を4つのレベル(低次知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェンシー能力(L4))に体系化した認知科学に着想を得た階層「SpatialTree」を提案する。この分類体系に基づき、27の下位能力にわたって主流のMLLMを徹底評価する、初の能力中心型階層ベンチマークを構築した。評価結果から明らかな構造が浮かび上がった:L1スキルはほぼ独立しているのに対し、高次スキルは強い相関を示し、相互依存性が増大することを示唆している。対象を絞った教師ありファインチューニングを通じて、驚くべき転移ダイナミクスを発見した:L1内では負の転移が生じる一方、低次から高次能力への強いクロスレベル転移が顕著な相乗効果とともに観測された。最後に、階層全体の改善方法を探求した。広範な「思考」を促す単純な強化学習(RL)は信頼性に欠けることが判明した:複雑な推論には有効だが、直感的知覚を損なうのである。不必要な考察を抑制するシンプルな自動思考戦略「auto-think」を提案し、RLが全レベルで一貫して性能を向上させることを実現した。SpatialTreeの構築により、MLLMの空間能力を理解し体系的に拡張するための概念実証フレームワークを提供する。
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.
PDF433February 8, 2026