Desplegando la Cognición Espacial: Evaluación de Modelos Multimodales en Simulaciones Visuales
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
June 5, 2025
Autores: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI
Resumen
La cognición espacial es fundamental para la inteligencia humana, permitiendo la resolución de problemas mediante simulaciones visuales en lugar de depender únicamente del razonamiento verbal. Sin embargo, los benchmarks existentes en IA evalúan principalmente el razonamiento verbal, descuidando las complejidades de la simulación visual no verbal y de múltiples pasos. Presentamos STARE (Spatial Transformations and Reasoning Evaluation), un benchmark diseñado para evaluar rigurosamente modelos de lenguaje multimodal en tareas que se resuelven mejor mediante simulaciones visuales de múltiples pasos. STARE incluye 4K tareas que abarcan transformaciones geométricas fundamentales (2D y 3D), razonamiento espacial integrado (plegado de redes de cubos y rompecabezas de tangram) y razonamiento espacial del mundo real (perspectiva y razonamiento temporal), reflejando desafíos cognitivos prácticos como el ensamblaje de objetos, la interpretación de diagramas mecánicos y la navegación espacial cotidiana. Nuestras evaluaciones muestran que los modelos sobresalen en el razonamiento sobre transformaciones 2D más simples, pero su rendimiento es cercano al azar en tareas más complejas como el plegado de redes de cubos 3D y los rompecabezas de tangram, que requieren simulaciones visuales de múltiples pasos. Los humanos logran una precisión casi perfecta, pero tardan un tiempo considerable (hasta 28.9 segundos) en tareas complejas, acelerándose significativamente (en promedio 7.5 segundos menos) con simulaciones visuales intermedias. En contraste, los modelos muestran ganancias de rendimiento inconsistentes con las simulaciones visuales, mejorando en la mayoría de las tareas pero disminuyendo en casos específicos como los rompecabezas de tangram (GPT-4o, o1) y el plegado de redes de cubos (Claude-3.5, Gemini-2.0 Flash), lo que indica que los modelos podrían no saber cómo aprovechar efectivamente la información visual intermedia.
English
Spatial cognition is essential for human intelligence, enabling
problem-solving through visual simulations rather than solely relying on verbal
reasoning. However, existing AI benchmarks primarily assess verbal reasoning,
neglecting the complexities of non-verbal, multi-step visual simulation. We
introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark
designed to rigorously evaluate multimodal large language models on tasks
better solved through multi-step visual simulation. STARE features 4K tasks
spanning foundational geometric transformations (2D and 3D), integrated spatial
reasoning (cube net folding and tangram puzzles), and real-world spatial
reasoning (perspective and temporal reasoning), reflecting practical cognitive
challenges like object assembly, mechanical diagram interpretation, and
everyday spatial navigation. Our evaluations show that models excel at
reasoning over simpler 2D transformations, but perform close to random chance
on more complex tasks like 3D cube net folding and tangram puzzles that require
multi-step visual simulations. Humans achieve near-perfect accuracy but take
considerable time (up to 28.9s) on complex tasks, significantly speeding up
(down by 7.5 seconds on average) with intermediate visual simulations. In
contrast, models exhibit inconsistent performance gains from visual
simulations, improving on most tasks but declining in specific cases like
tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0
Flash), indicating that models may not know how to effectively leverage
intermediate visual information.