Раскрытие пространственного познания: оценка мультимодальных моделей на визуальных симуляциях
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations
June 5, 2025
Авторы: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI
Аннотация
Пространственное познание является важнейшим аспектом человеческого интеллекта, позволяющим решать задачи через визуальное моделирование, а не только посредством вербального рассуждения. Однако существующие тесты для ИИ в основном оценивают вербальное мышление, игнорируя сложности невербального, многошагового визуального моделирования. Мы представляем STARE (Spatial Transformations and Reasoning Evaluation) — тестовый набор, разработанный для строгой оценки мультимодальных больших языковых моделей на задачах, которые лучше решаются через многошаговое визуальное моделирование. STARE включает 4 тысячи задач, охватывающих базовые геометрические преобразования (2D и 3D), интегрированное пространственное мышление (складывание разверток куба и головоломки танграм) и реальное пространственное мышление (перспектива и временное рассуждение), отражая практические когнитивные вызовы, такие как сборка объектов, интерпретация механических схем и повседневная навигация в пространстве. Наши оценки показывают, что модели преуспевают в решении более простых 2D-преобразований, но демонстрируют результаты, близкие к случайным, на более сложных задачах, таких как складывание 3D-разверток куба и танграм, требующих многошагового визуального моделирования. Люди достигают почти идеальной точности, но тратят значительное время (до 28,9 секунд) на сложные задачи, значительно ускоряясь (в среднем на 7,5 секунд) при использовании промежуточного визуального моделирования. В отличие от этого, модели демонстрируют неоднозначные улучшения от визуального моделирования: они показывают прогресс на большинстве задач, но ухудшают результаты в отдельных случаях, таких как танграм (GPT-4o, o1) и складывание разверток куба (Claude-3.5, Gemini-2.0 Flash), что указывает на то, что модели, возможно, не умеют эффективно использовать промежуточную визуальную информацию.
English
Spatial cognition is essential for human intelligence, enabling
problem-solving through visual simulations rather than solely relying on verbal
reasoning. However, existing AI benchmarks primarily assess verbal reasoning,
neglecting the complexities of non-verbal, multi-step visual simulation. We
introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark
designed to rigorously evaluate multimodal large language models on tasks
better solved through multi-step visual simulation. STARE features 4K tasks
spanning foundational geometric transformations (2D and 3D), integrated spatial
reasoning (cube net folding and tangram puzzles), and real-world spatial
reasoning (perspective and temporal reasoning), reflecting practical cognitive
challenges like object assembly, mechanical diagram interpretation, and
everyday spatial navigation. Our evaluations show that models excel at
reasoning over simpler 2D transformations, but perform close to random chance
on more complex tasks like 3D cube net folding and tangram puzzles that require
multi-step visual simulations. Humans achieve near-perfect accuracy but take
considerable time (up to 28.9s) on complex tasks, significantly speeding up
(down by 7.5 seconds on average) with intermediate visual simulations. In
contrast, models exhibit inconsistent performance gains from visual
simulations, improving on most tasks but declining in specific cases like
tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0
Flash), indicating that models may not know how to effectively leverage
intermediate visual information.