공간적 능력이 MLLM에서 어떻게 분화되는가: SpatialTree 분석
SpatialTree: How Spatial Abilities Branch Out in MLLMs
December 23, 2025
저자: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI
초록
인지과학에 따르면 공간 능력은 지각에서 추론 및 상호작용에 이르기까지 점진적으로 발달합니다. 그러나 다중모드 대형언어모델(MLLM)에서는 대부분의 연구가 제한된 과업 집단에 집중함에 따라 이러한 위계 구조에 대한 이해가 여전히 부족합니다. 본 연구에서는 공간 능력을 4단계—저수준 지각(L1), 심성 지도 구성(L2), 시뮬레이션(L3), 주체적 능력(L4)—로 체계화한 인지과학 기반 위계 구조인 SpatialTree를 제안합니다. 이 분류 체계를 바탕으로 역량 중심의 최초 위계적 벤치마크를 구축하여 주류 MLLM 27개를 27가지 하위 능력에 걸쳐 철저히 평가했습니다. 평가 결과 명확한 구조가 드러났습니다: L1 기술은 대체로 독립적인 반면, 고수준 기술은 강한 상관관계를 보여 점증적 상호의존성을 확인했습니다. 대상 지도 미세조정을 통해 흥미로운 전이 역학을 발견했는데, L1 내에서는 부정적 전이가 발생한 반면 저수준에서 고수준 능력으로의 강한 교차 수준 전이와 뚜렷한 시너지 효과가 관찰되었습니다. 마지막으로 위계 전체의 개선 방안을 탐구했습니다. 광범위한 "사고"를 유도하는 단순 강화학습은 복잡한 추론에는 도움이 되지만 직관적 지각에는 오히려 방해가 되어 신뢰할 수 없음을 확인했습니다. 우리는 불필요한 고민을 억제하는 간단한 자동 사고 전략을 제안하여 강화학습이 모든 수준에서 일관되게 성능을 향상시키도록 했습니다. SpatialTree 구축을 통해 MLLM의 공간 능력을 이해하고 체계적으로 확장하기 위한 개념 검증 프레임워크를 제공합니다.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.