Desvendando a Cognição Espacial: Avaliando Modelos Multimodais em Simulações Visuais
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
June 5, 2025
Autores: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI
Resumo
A cognição espacial é essencial para a inteligência humana, permitindo a resolução de problemas por meio de simulações visuais, em vez de depender exclusivamente do raciocínio verbal. No entanto, os benchmarks de IA existentes avaliam principalmente o raciocínio verbal, negligenciando as complexidades da simulação visual não verbal e de múltiplas etapas. Apresentamos o STARE (Spatial Transformations and Reasoning Evaluation), um benchmark projetado para avaliar rigorosamente modelos de linguagem multimodal em tarefas que são melhor resolvidas por meio de simulações visuais de múltiplas etapas. O STARE inclui 4 mil tarefas que abrangem transformações geométricas fundamentais (2D e 3D), raciocínio espacial integrado (dobramento de redes de cubos e quebra-cabeças tangram) e raciocínio espacial do mundo real (perspectiva e raciocínio temporal), refletindo desafios cognitivos práticos, como montagem de objetos, interpretação de diagramas mecânicos e navegação espacial cotidiana. Nossas avaliações mostram que os modelos se destacam no raciocínio sobre transformações 2D mais simples, mas têm desempenho próximo ao acaso em tarefas mais complexas, como o dobramento de redes de cubos 3D e quebra-cabeças tangram, que exigem simulações visuais de múltiplas etapas. Humanos alcançam precisão quase perfeita, mas levam um tempo considerável (até 28,9 segundos) em tarefas complexas, acelerando significativamente (em média 7,5 segundos) com simulações visuais intermediárias. Em contraste, os modelos apresentam ganhos de desempenho inconsistentes com simulações visuais, melhorando na maioria das tarefas, mas decaindo em casos específicos, como quebra-cabeças tangram (GPT-4o, o1) e dobramento de redes de cubos (Claude-3.5, Gemini-2.0 Flash), indicando que os modelos podem não saber como aproveitar efetivamente informações visuais intermediárias.
English
Spatial cognition is essential for human intelligence, enabling
problem-solving through visual simulations rather than solely relying on verbal
reasoning. However, existing AI benchmarks primarily assess verbal reasoning,
neglecting the complexities of non-verbal, multi-step visual simulation. We
introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark
designed to rigorously evaluate multimodal large language models on tasks
better solved through multi-step visual simulation. STARE features 4K tasks
spanning foundational geometric transformations (2D and 3D), integrated spatial
reasoning (cube net folding and tangram puzzles), and real-world spatial
reasoning (perspective and temporal reasoning), reflecting practical cognitive
challenges like object assembly, mechanical diagram interpretation, and
everyday spatial navigation. Our evaluations show that models excel at
reasoning over simpler 2D transformations, but perform close to random chance
on more complex tasks like 3D cube net folding and tangram puzzles that require
multi-step visual simulations. Humans achieve near-perfect accuracy but take
considerable time (up to 28.9s) on complex tasks, significantly speeding up
(down by 7.5 seconds on average) with intermediate visual simulations. In
contrast, models exhibit inconsistent performance gains from visual
simulations, improving on most tasks but declining in specific cases like
tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0
Flash), indicating that models may not know how to effectively leverage
intermediate visual information.