Entfaltung räumlicher Kognition: Bewertung multimodaler Modelle anhand visueller Simulationen
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
June 5, 2025
Autoren: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI
Zusammenfassung
Räumliche Kognition ist ein wesentlicher Bestandteil der menschlichen Intelligenz, der es ermöglicht, Probleme durch visuelle Simulationen zu lösen, anstatt sich ausschließlich auf verbales Denken zu verlassen. Bisherige KI-Benchmarks konzentrieren sich jedoch hauptsächlich auf verbales Denken und vernachlässigen die Komplexität nicht-verbaler, mehrstufiger visueller Simulationen. Wir stellen STARE (Spatial Transformations and Reasoning Evaluation) vor, einen Benchmark, der entwickelt wurde, um multimodale große Sprachmodelle anhand von Aufgaben rigoros zu bewerten, die besser durch mehrstufige visuelle Simulationen gelöst werden. STARE umfasst 4.000 Aufgaben, die grundlegende geometrische Transformationen (2D und 3D), integriertes räumliches Denken (Falten von Würfelnetzen und Tangram-Puzzles) sowie realitätsnahes räumliches Denken (Perspektiven- und zeitliches Denken) abdecken und praktische kognitive Herausforderungen wie das Zusammenbauen von Objekten, die Interpretation mechanischer Diagramme und die alltägliche räumliche Navigation widerspiegeln. Unsere Auswertungen zeigen, dass Modelle bei der Bewältigung einfacherer 2D-Transformationen gut abschneiden, aber bei komplexeren Aufgaben wie dem Falten von 3D-Würfelnetzen und Tangram-Puzzles, die mehrstufige visuelle Simulationen erfordern, nahezu zufällige Ergebnisse liefern. Menschen erreichen nahezu perfekte Genauigkeit, benötigen jedoch erhebliche Zeit (bis zu 28,9 Sekunden) für komplexe Aufgaben, die sich durch Zwischenvisualisierungen deutlich verkürzt (im Durchschnitt um 7,5 Sekunden). Im Gegensatz dazu zeigen Modelle inkonsistente Leistungssteigerungen durch visuelle Simulationen, verbessern sich bei den meisten Aufgaben, verschlechtern sich jedoch in bestimmten Fällen wie Tangram-Puzzles (GPT-4o, o1) und dem Falten von Würfelnetzen (Claude-3.5, Gemini-2.0 Flash), was darauf hindeutet, dass Modelle möglicherweise nicht wissen, wie sie Zwischenvisualisierungen effektiv nutzen können.
English
Spatial cognition is essential for human intelligence, enabling
problem-solving through visual simulations rather than solely relying on verbal
reasoning. However, existing AI benchmarks primarily assess verbal reasoning,
neglecting the complexities of non-verbal, multi-step visual simulation. We
introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark
designed to rigorously evaluate multimodal large language models on tasks
better solved through multi-step visual simulation. STARE features 4K tasks
spanning foundational geometric transformations (2D and 3D), integrated spatial
reasoning (cube net folding and tangram puzzles), and real-world spatial
reasoning (perspective and temporal reasoning), reflecting practical cognitive
challenges like object assembly, mechanical diagram interpretation, and
everyday spatial navigation. Our evaluations show that models excel at
reasoning over simpler 2D transformations, but perform close to random chance
on more complex tasks like 3D cube net folding and tangram puzzles that require
multi-step visual simulations. Humans achieve near-perfect accuracy but take
considerable time (up to 28.9s) on complex tasks, significantly speeding up
(down by 7.5 seconds on average) with intermediate visual simulations. In
contrast, models exhibit inconsistent performance gains from visual
simulations, improving on most tasks but declining in specific cases like
tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0
Flash), indicating that models may not know how to effectively leverage
intermediate visual information.