ChatPaper.aiChatPaper

SpatialTree: Wie sich räumliche Fähigkeiten in MLLMs verzweigen

SpatialTree: How Spatial Abilities Branch Out in MLLMs

December 23, 2025
papers.authors: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI

papers.abstract

Die Kognitionswissenschaft deutet darauf hin, dass sich räumliche Fähigkeiten progressiv entwickeln – von der Wahrnehmung über das Schlussfolgern bis hin zur Interaktion. In multimodalen LLMs (MLLMs) ist diese Hierarchie jedoch noch kaum verstanden, da sich die meisten Studien auf einen eng begrenzten Satz von Aufgaben konzentrieren. Wir stellen SpatialTree vor, eine kognitionswissenschaftlich inspirierte Hierarchie, die räumliche Fähigkeiten in vier Ebenen gliedert: Low-Level-Wahrnehmung (L1), mentale Abbildung (L2), Simulation (L3) und agentische Kompetenz (L4). Auf Grundlage dieser Taxonomie konstruieren wir den ersten fähigkeitszentrierten, hierarchischen Benchmark, der主流-MLLMs gründlich über 27 Teilfähigkeiten hinweg evaluiert. Die Evaluierungsergebnisse offenbaren eine klare Struktur: L1-Fähigkeiten sind weitgehend orthogonal, während Fähigkeiten höherer Ebenen stark korrelieren, was auf zunehmende Interdependenz hindeutet. Durch gezieltes supervised Fine-Tuning decken wir eine überraschende Transferdynamik auf: negativer Transfer innerhalb von L1, aber starker transferübergreifender Transfer von niedrig- zu höherebenen Fähigkeiten mit bemerkenswerter Synergie. Abschließend untersuchen wir, wie die gesamte Hierarchie verbessert werden kann. Wir stellen fest, dass naives Reinforcement Learning (RL), das extensives "Denken" fördert, unzuverlässig ist: Es hilft beim komplexen Schlussfolgern, schadet aber der intuitiven Wahrnehmung. Wir schlagen eine einfache Auto-Think-Strategie vor, die unnötige Abwägungen unterdrückt und es RL ermöglicht, die Leistung über alle Ebenen hinweg konsistent zu verbessern. Mit der Entwicklung von SpatialTree liefern wir einen Proof-of-Concept-Rahmen zum Verständnis und zur systematischen Skalierung räumlicher Fähigkeiten in MLLMs.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.
PDF342December 25, 2025