ChatPaper.aiChatPaper

Dépliement de la cognition spatiale : Évaluation des modèles multimodaux sur des simulations visuelles

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

June 5, 2025
Auteurs: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI

Résumé

La cognition spatiale est essentielle à l'intelligence humaine, permettant de résoudre des problèmes grâce à des simulations visuelles plutôt qu'en s'appuyant uniquement sur le raisonnement verbal. Cependant, les benchmarks existants en IA évaluent principalement le raisonnement verbal, négligeant les complexités des simulations visuelles non verbales et multi-étapes. Nous présentons STARE (Spatial Transformations and Reasoning Evaluation), un benchmark conçu pour évaluer rigoureusement les modèles de langage multimodaux sur des tâches mieux résolues par des simulations visuelles multi-étapes. STARE propose 4 000 tâches couvrant des transformations géométriques fondamentales (2D et 3D), un raisonnement spatial intégré (pliage de patrons de cubes et puzzles tangram) et un raisonnement spatial pratique (raisonnement perspectif et temporel), reflétant des défis cognitifs concrets tels que l'assemblage d'objets, l'interprétation de diagrammes mécaniques et la navigation spatiale quotidienne. Nos évaluations montrent que les modèles excellent dans le raisonnement sur des transformations 2D simples, mais obtiennent des performances proches du hasard sur des tâches plus complexes comme le pliage de patrons de cubes 3D et les puzzles tangram, qui nécessitent des simulations visuelles multi-étapes. Les humains atteignent une précision quasi parfaite mais prennent un temps considérable (jusqu'à 28,9 s) sur les tâches complexes, accélérant significativement (en moyenne de 7,5 secondes) avec des simulations visuelles intermédiaires. En revanche, les modèles montrent des gains de performance incohérents avec les simulations visuelles, s'améliorant sur la plupart des tâches mais déclinant dans des cas spécifiques comme les puzzles tangram (GPT-4o, o1) et le pliage de patrons de cubes (Claude-3.5, Gemini-2.0 Flash), indiquant que les modèles ne savent peut-être pas exploiter efficacement les informations visuelles intermédiaires.
English
Spatial cognition is essential for human intelligence, enabling problem-solving through visual simulations rather than solely relying on verbal reasoning. However, existing AI benchmarks primarily assess verbal reasoning, neglecting the complexities of non-verbal, multi-step visual simulation. We introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark designed to rigorously evaluate multimodal large language models on tasks better solved through multi-step visual simulation. STARE features 4K tasks spanning foundational geometric transformations (2D and 3D), integrated spatial reasoning (cube net folding and tangram puzzles), and real-world spatial reasoning (perspective and temporal reasoning), reflecting practical cognitive challenges like object assembly, mechanical diagram interpretation, and everyday spatial navigation. Our evaluations show that models excel at reasoning over simpler 2D transformations, but perform close to random chance on more complex tasks like 3D cube net folding and tangram puzzles that require multi-step visual simulations. Humans achieve near-perfect accuracy but take considerable time (up to 28.9s) on complex tasks, significantly speeding up (down by 7.5 seconds on average) with intermediate visual simulations. In contrast, models exhibit inconsistent performance gains from visual simulations, improving on most tasks but declining in specific cases like tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0 Flash), indicating that models may not know how to effectively leverage intermediate visual information.
PDF161June 6, 2025