Svelare la Cognizione Spaziale: Valutazione di Modelli Multimodali su Simulazioni Visive
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
June 5, 2025
Autori: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI
Abstract
La cognizione spaziale è essenziale per l'intelligenza umana, consentendo la risoluzione di problemi attraverso simulazioni visive piuttosto che affidarsi esclusivamente al ragionamento verbale. Tuttavia, i benchmark esistenti per l'IA valutano principalmente il ragionamento verbale, trascurando le complessità della simulazione visiva non verbale e multi-step. Introduciamo STARE (Spatial Transformations and Reasoning Evaluation), un benchmark progettato per valutare rigorosamente i modelli linguistici multimodali su compiti che vengono risolti meglio attraverso simulazioni visive multi-step. STARE comprende 4K task che spaziano dalle trasformazioni geometriche di base (2D e 3D), al ragionamento spaziale integrato (piegatura di reti di cubi e puzzle tangram), fino al ragionamento spaziale nel mondo reale (prospettiva e ragionamento temporale), riflettendo sfide cognitive pratiche come l'assemblaggio di oggetti, l'interpretazione di diagrammi meccanici e la navigazione spaziale quotidiana. Le nostre valutazioni mostrano che i modelli eccellono nel ragionamento su trasformazioni 2D più semplici, ma performano vicino al caso casuale su compiti più complessi come la piegatura di reti di cubi 3D e i puzzle tangram che richiedono simulazioni visive multi-step. Gli esseri umani raggiungono una precisione quasi perfetta ma impiegano un tempo considerevole (fino a 28,9 secondi) su compiti complessi, accelerando significativamente (in media di 7,5 secondi) con simulazioni visive intermedie. Al contrario, i modelli mostrano guadagni di performance inconsistenti dalle simulazioni visive, migliorando nella maggior parte dei task ma peggiorando in casi specifici come i puzzle tangram (GPT-4o, o1) e la piegatura di reti di cubi (Claude-3.5, Gemini-2.0 Flash), indicando che i modelli potrebbero non sapere come sfruttare efficacemente le informazioni visive intermedie.
English
Spatial cognition is essential for human intelligence, enabling
problem-solving through visual simulations rather than solely relying on verbal
reasoning. However, existing AI benchmarks primarily assess verbal reasoning,
neglecting the complexities of non-verbal, multi-step visual simulation. We
introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark
designed to rigorously evaluate multimodal large language models on tasks
better solved through multi-step visual simulation. STARE features 4K tasks
spanning foundational geometric transformations (2D and 3D), integrated spatial
reasoning (cube net folding and tangram puzzles), and real-world spatial
reasoning (perspective and temporal reasoning), reflecting practical cognitive
challenges like object assembly, mechanical diagram interpretation, and
everyday spatial navigation. Our evaluations show that models excel at
reasoning over simpler 2D transformations, but perform close to random chance
on more complex tasks like 3D cube net folding and tangram puzzles that require
multi-step visual simulations. Humans achieve near-perfect accuracy but take
considerable time (up to 28.9s) on complex tasks, significantly speeding up
(down by 7.5 seconds on average) with intermediate visual simulations. In
contrast, models exhibit inconsistent performance gains from visual
simulations, improving on most tasks but declining in specific cases like
tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0
Flash), indicating that models may not know how to effectively leverage
intermediate visual information.