ChatPaper.aiChatPaper

ПространственноеДерево: Как пространственные способности ветвятся в MLLM

SpatialTree: How Spatial Abilities Branch Out in MLLMs

December 23, 2025
Авторы: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI

Аннотация

Когнитивная наука предполагает, что пространственные способности развиваются прогрессивно — от восприятия к рассуждению и взаимодействию. Однако в мутимодальных больших языковых моделях (МБЯМ) эта иерархия остается слабо изученной, поскольку большинство исследований сосредоточено на узком наборе задач. Мы представляем SpatialTree — иерархию, вдохновленную когнитивной наукой, которая организует пространственные способности на четыре уровня: низкоуровневое восприятие (У1), ментальное картографирование (У2), симуляция (У3) и агентная компетенция (У4). На основе этой таксономии мы создали первый ориентированный на способности иерархический бенчмарк, всесторонне оценивающий основные МБЯМ по 27 субспособностям. Результаты оценки выявляют четкую структуру: навыки У1 в значительной степени ортогональны, тогда как навыки более высоких уровней сильно коррелируют, что указывает на возрастающую взаимозависимость. С помощью целевого контролируемого тонкого настроения мы обнаружили удивительную динамику переноса: отрицательный перенос внутри У1, но сильный межуровневый перенос от низкоуровневых к высокоуровневым способностям с заметной синергией. Наконец, мы исследуем, как улучшить всю иерархию. Мы выяснили, что наивное обучение с подкреплением (ОР), поощряющее обширное «мышление», ненадежно: оно помогает сложным рассуждениям, но вредит интуитивному восприятию. Мы предлагаем простую стратегию авто-мышления, которая подавляет излишнюю рефлексию, позволяя ОР стабильно улучшать результаты на всех уровнях. Создав SpatialTree, мы предоставляем концептуальную основу для понимания и системного масштабирования пространственных способностей в МБЯМ.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.
PDF342December 25, 2025