ChatPaper.aiChatPaper

Entfaltung räumlicher Kognition: Bewertung multimodaler Modelle anhand visueller Simulationen

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

June 5, 2025
Autoren: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI

Zusammenfassung

Räumliche Kognition ist ein wesentlicher Bestandteil der menschlichen Intelligenz, der es ermöglicht, Probleme durch visuelle Simulationen zu lösen, anstatt sich ausschließlich auf verbales Denken zu verlassen. Bisherige KI-Benchmarks konzentrieren sich jedoch hauptsächlich auf verbales Denken und vernachlässigen die Komplexität nicht-verbaler, mehrstufiger visueller Simulationen. Wir stellen STARE (Spatial Transformations and Reasoning Evaluation) vor, einen Benchmark, der entwickelt wurde, um multimodale große Sprachmodelle anhand von Aufgaben rigoros zu bewerten, die besser durch mehrstufige visuelle Simulationen gelöst werden. STARE umfasst 4.000 Aufgaben, die grundlegende geometrische Transformationen (2D und 3D), integriertes räumliches Denken (Falten von Würfelnetzen und Tangram-Puzzles) sowie realitätsnahes räumliches Denken (Perspektiven- und zeitliches Denken) abdecken und praktische kognitive Herausforderungen wie das Zusammenbauen von Objekten, die Interpretation mechanischer Diagramme und die alltägliche räumliche Navigation widerspiegeln. Unsere Auswertungen zeigen, dass Modelle bei der Bewältigung einfacherer 2D-Transformationen gut abschneiden, aber bei komplexeren Aufgaben wie dem Falten von 3D-Würfelnetzen und Tangram-Puzzles, die mehrstufige visuelle Simulationen erfordern, nahezu zufällige Ergebnisse liefern. Menschen erreichen nahezu perfekte Genauigkeit, benötigen jedoch erhebliche Zeit (bis zu 28,9 Sekunden) für komplexe Aufgaben, die sich durch Zwischenvisualisierungen deutlich verkürzt (im Durchschnitt um 7,5 Sekunden). Im Gegensatz dazu zeigen Modelle inkonsistente Leistungssteigerungen durch visuelle Simulationen, verbessern sich bei den meisten Aufgaben, verschlechtern sich jedoch in bestimmten Fällen wie Tangram-Puzzles (GPT-4o, o1) und dem Falten von Würfelnetzen (Claude-3.5, Gemini-2.0 Flash), was darauf hindeutet, dass Modelle möglicherweise nicht wissen, wie sie Zwischenvisualisierungen effektiv nutzen können.
English
Spatial cognition is essential for human intelligence, enabling problem-solving through visual simulations rather than solely relying on verbal reasoning. However, existing AI benchmarks primarily assess verbal reasoning, neglecting the complexities of non-verbal, multi-step visual simulation. We introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark designed to rigorously evaluate multimodal large language models on tasks better solved through multi-step visual simulation. STARE features 4K tasks spanning foundational geometric transformations (2D and 3D), integrated spatial reasoning (cube net folding and tangram puzzles), and real-world spatial reasoning (perspective and temporal reasoning), reflecting practical cognitive challenges like object assembly, mechanical diagram interpretation, and everyday spatial navigation. Our evaluations show that models excel at reasoning over simpler 2D transformations, but perform close to random chance on more complex tasks like 3D cube net folding and tangram puzzles that require multi-step visual simulations. Humans achieve near-perfect accuracy but take considerable time (up to 28.9s) on complex tasks, significantly speeding up (down by 7.5 seconds on average) with intermediate visual simulations. In contrast, models exhibit inconsistent performance gains from visual simulations, improving on most tasks but declining in specific cases like tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0 Flash), indicating that models may not know how to effectively leverage intermediate visual information.
PDF161June 6, 2025