Ontvouwen van Ruimtelijk Cognitie: Evaluatie van Multimodale Modellen op Visuele Simulaties
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
June 5, 2025
Auteurs: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI
Samenvatting
Ruimtelijk cognitie is essentieel voor menselijke intelligentie, waardoor probleemoplossing mogelijk wordt door middel van visuele simulaties in plaats van uitsluitend te vertrouwen op verbale redenering. Bestaande AI-benchmarks richten zich echter voornamelijk op verbale redenering en negeren de complexiteit van non-verbale, meerstaps visuele simulaties. Wij introduceren STARE (Spatial Transformations and Reasoning Evaluation), een benchmark die is ontworpen om multimodale grote taalmodellen rigoureus te evalueren op taken die beter opgelost kunnen worden door middel van meerstaps visuele simulaties. STARE omvat 4K taken die zich uitstrekken over fundamentele geometrische transformaties (2D en 3D), geïntegreerde ruimtelijke redenering (kubusnet vouwen en tangrampuzzels), en real-world ruimtelijke redenering (perspectief en temporele redenering), wat praktische cognitieve uitdagingen weerspiegelt zoals objectassemblage, interpretatie van mechanische diagrammen en alledaagse ruimtelijke navigatie. Onze evaluaties tonen aan dat modellen uitblinken in redenering over eenvoudigere 2D-transformaties, maar presteren op bijna willekeurig niveau bij complexere taken zoals 3D-kubusnet vouwen en tangrampuzzels die meerstaps visuele simulaties vereisen. Mensen behalen bijna perfecte nauwkeurigheid maar nemen aanzienlijke tijd (tot 28,9 seconden) voor complexe taken, wat aanzienlijk versnelt (gemiddeld 7,5 seconden minder) met tussenliggende visuele simulaties. Daarentegen vertonen modellen inconsistente prestatieverbeteringen door visuele simulaties, waarbij ze op de meeste taken verbeteren maar in specifieke gevallen zoals tangrampuzzels (GPT-4o, o1) en kubusnet vouwen (Claude-3.5, Gemini-2.0 Flash) achteruitgaan, wat aangeeft dat modellen mogelijk niet weten hoe ze tussenliggende visuele informatie effectief kunnen benutten.
English
Spatial cognition is essential for human intelligence, enabling
problem-solving through visual simulations rather than solely relying on verbal
reasoning. However, existing AI benchmarks primarily assess verbal reasoning,
neglecting the complexities of non-verbal, multi-step visual simulation. We
introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark
designed to rigorously evaluate multimodal large language models on tasks
better solved through multi-step visual simulation. STARE features 4K tasks
spanning foundational geometric transformations (2D and 3D), integrated spatial
reasoning (cube net folding and tangram puzzles), and real-world spatial
reasoning (perspective and temporal reasoning), reflecting practical cognitive
challenges like object assembly, mechanical diagram interpretation, and
everyday spatial navigation. Our evaluations show that models excel at
reasoning over simpler 2D transformations, but perform close to random chance
on more complex tasks like 3D cube net folding and tangram puzzles that require
multi-step visual simulations. Humans achieve near-perfect accuracy but take
considerable time (up to 28.9s) on complex tasks, significantly speeding up
(down by 7.5 seconds on average) with intermediate visual simulations. In
contrast, models exhibit inconsistent performance gains from visual
simulations, improving on most tasks but declining in specific cases like
tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0
Flash), indicating that models may not know how to effectively leverage
intermediate visual information.