SpatialTree: Cómo se Ramifican las Habilidades Espaciales en los MLLM
SpatialTree: How Spatial Abilities Branch Out in MLLMs
December 23, 2025
Autores: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI
Resumen
La ciencia cognitiva sugiere que la capacidad espacial se desarrolla progresivamente, desde la percepción hasta el razonamiento y la interacción. Sin embargo, en los modelos de lenguaje multimodal (MLLM), esta jerarquía sigue siendo poco comprendida, ya que la mayoría de los estudios se centran en un conjunto reducido de tareas. Presentamos SpatialTree, una jerarquía inspirada en la ciencia cognitiva que organiza las habilidades espaciales en cuatro niveles: percepción de bajo nivel (L1), mapeo mental (L2), simulación (L3) y competencia agéntica (L4). Basándonos en esta taxonomía, construimos el primer benchmark jerárquico centrado en capacidades, evaluando exhaustivamente los MLLM principales en 27 sub-habilidades. Los resultados de la evaluación revelan una estructura clara: las habilidades de L1 son en gran medida ortogonales, mientras que las habilidades de nivel superior están fuertemente correlacionadas, lo que indica una interdependencia creciente. Mediante ajuste fino supervisado dirigido, descubrimos una dinámica de transferencia sorprendente: transferencia negativa dentro de L1, pero una fuerte transferencia cruzada de niveles de habilidades bajas a altas con una notable sinergia. Finalmente, exploramos cómo mejorar toda la jerarquía. Encontramos que el RL ingenuo que fomenta un "pensamiento" extenso es poco fiable: ayuda al razonamiento complejo pero perjudica la percepción intuitiva. Proponemos una simple estrategia de auto-pensamiento que suprime la deliberación innecesaria, permitiendo que el RL mejore consistentemente el rendimiento en todos los niveles. Al construir SpatialTree, proporcionamos un marco de prueba de concepto para comprender y escalar sistemáticamente las habilidades espaciales en los MLLM.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.