ChatPaper.aiChatPaper

SpatialTree: Come le Abilità Spaziali Si Ramificano nei Modelli Multimodali di Grande Dimensione

SpatialTree: How Spatial Abilities Branch Out in MLLMs

December 23, 2025
Autori: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang
cs.AI

Abstract

La scienza cognitiva suggerisce che l'abilità spaziale si sviluppa progressivamente - dalla percezione al ragionamento e all'interazione. Tuttavia, nei modelli linguistici multimodali (MLLM), questa gerarchia rimane poco compresa, poiché la maggior parte degli studi si concentra su un insieme ristretto di compiti. Introduciamo SpatialTree, una gerarchia ispirata alla scienza cognitiva che organizza le abilità spaziali in quattro livelli: percezione di basso livello (L1), mappatura mentale (L2), simulazione (L3) e competenza agentica (L4). Basandoci su questa tassonomia, costruiamo il primo benchmark gerarchico centrato sulle capacità, valutando approfonditamente i principali MLLM attraverso 27 sotto-abilità. I risultati della valutazione rivelano una struttura chiara: le abilità L1 sono largamente ortogonali, mentre quelle di livello superiore sono fortemente correlate, indicando una crescente interdipendenza. Attraverso un fine-tuning supervisionato mirato, scopriamo una dinamica di transfer sorprendente: transfer negativo all'interno di L1, ma un forte transfer cross-level dalle abilità di basso livello a quelle di alto livello con una notevole sinergia. Infine, esploriamo come migliorare l'intera gerarchia. Scopriamo che il RL ingenuo che incoraggia un "pensiero" estensivo è inaffidabile: aiuta il ragionamento complesso ma danneggia la percezione intuitiva. Proponiamo una semplice strategia di auto-pensiero che sopprime le deliberazioni non necessarie, consentendo al RL di migliorare costantemente le prestazioni a tutti i livelli. Costruendo SpatialTree, forniamo un framework proof-of-concept per comprendere e scalare sistematicamente le abilità spaziali negli MLLM.
English
Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.
PDF342December 25, 2025