SpatialTree: Como as Habilidades Espaciais se Ramificam nos MLLMs

Resumo

A ciência cognitiva sugere que a capacidade espacial desenvolve-se progressivamente - da perceção ao raciocínio e interação. No entanto, nos MLLMs (Modelos de Linguagem Multimodais), esta hierarquia permanece pouco compreendida, uma vez que a maioria dos estudos se concentra num conjunto restrito de tarefas. Apresentamos o SpatialTree, uma hierarquia inspirada na ciência cognitiva que organiza as capacidades espaciais em quatro níveis: perceção de baixo nível (L1), mapeamento mental (L2), simulação (L3) e competência agencial (L4). Com base nesta taxonomia, construímos o primeiro benchmark hierárquico centrado em capacidades, avaliando minuciosamente MLLMs mainstream em 27 subcapacidades. Os resultados da avaliação revelam uma estrutura clara: as competências de L1 são largamente ortogonais, enquanto as competências de nível superior estão fortemente correlacionadas, indicando uma interdependência crescente. Através de *fine-tuning* supervisionado direcionado, descobrimos uma dinâmica de transferência surpreendente - transferência negativa dentro do L1, mas uma forte transferência transversal de baixo para alto nível com uma sinergia notável. Por fim, exploramos como melhorar toda a hierarquia. Verificamos que o RL (*Reinforcement Learning*) ingénuo que incentiva um "pensamento" extensivo não é fiável: ajuda o raciocínio complexo, mas prejudica a perceção intuitiva. Propomos uma simples estratégia de *auto-think* que suprime deliberações desnecessárias, permitindo que o RL melhore consistentemente o desempenho em todos os níveis. Ao construir o SpatialTree, fornecemos uma estrutura de prova de conceito para compreender e escalar sistematicamente as capacidades espaciais nos MLLMs.

English

Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.

SpatialTree: Como as Habilidades Espaciais se Ramificam nos MLLMs

SpatialTree: How Spatial Abilities Branch Out in MLLMs

Resumo

Support