ChatPaper.aiChatPaper

공간 인지의 전개: 시각적 시뮬레이션에서 다중모드 모델 평가

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

June 5, 2025
저자: Linjie Li, Mahtab Bigverdi, Jiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna
cs.AI

초록

공간 인지 능력은 인간의 지능에 있어 필수적이며, 이를 통해 언어적 추론에만 의존하지 않고 시각적 시뮬레이션을 통해 문제를 해결할 수 있다. 그러나 기존의 AI 벤치마크는 주로 언어적 추론을 평가하며, 비언어적이고 다단계 시각적 시뮬레이션의 복잡성을 간과하고 있다. 본 연구에서는 다단계 시각적 시뮬레이션을 통해 더 잘 해결될 수 있는 과제들에 대해 다중모드 대형 언어 모델을 엄격히 평가하기 위해 STARE(Spatial Transformations and Reasoning Evaluation) 벤치마크를 소개한다. STARE는 기하학적 변환(2D 및 3D), 통합 공간 추론(큐브 넷 접기 및 탱그램 퍼즐), 그리고 실제 세계의 공간 추론(원근 및 시간적 추론)을 포함한 4,000개의 과제로 구성되어 있으며, 이는 물체 조립, 기계 도면 해석, 일상적인 공간 탐색과 같은 실질적인 인지적 도전을 반영한다. 평가 결과, 모델들은 단순한 2D 변환에 대한 추론에서는 뛰어난 성능을 보였으나, 다단계 시각적 시뮬레이션이 필요한 3D 큐브 넷 접기 및 탱그램 퍼즐과 같은 복잡한 과제에서는 거의 무작위 수준의 성능을 보였다. 인간은 복잡한 과제에서 거의 완벽한 정확도를 달성하지만 상당한 시간(최대 28.9초)이 소요되며, 중간 시각적 시뮬레이션을 통해 시간을 크게 단축(평균 7.5초 감소)할 수 있었다. 반면, 모델들은 시각적 시뮬레이션으로부터 일관된 성능 향상을 보이지 않았으며, 대부분의 과제에서는 개선되었으나 탱그램 퍼즐(GPT-4o, o1) 및 큐브 넷 접기(Claude-3.5, Gemini-2.0 Flash)와 같은 특정 사례에서는 성능이 저하되어, 모델들이 중간 시각적 정보를 효과적으로 활용하는 방법을 알지 못할 가능성을 시사한다.
English
Spatial cognition is essential for human intelligence, enabling problem-solving through visual simulations rather than solely relying on verbal reasoning. However, existing AI benchmarks primarily assess verbal reasoning, neglecting the complexities of non-verbal, multi-step visual simulation. We introduce STARE(Spatial Transformations and Reasoning Evaluation), a benchmark designed to rigorously evaluate multimodal large language models on tasks better solved through multi-step visual simulation. STARE features 4K tasks spanning foundational geometric transformations (2D and 3D), integrated spatial reasoning (cube net folding and tangram puzzles), and real-world spatial reasoning (perspective and temporal reasoning), reflecting practical cognitive challenges like object assembly, mechanical diagram interpretation, and everyday spatial navigation. Our evaluations show that models excel at reasoning over simpler 2D transformations, but perform close to random chance on more complex tasks like 3D cube net folding and tangram puzzles that require multi-step visual simulations. Humans achieve near-perfect accuracy but take considerable time (up to 28.9s) on complex tasks, significantly speeding up (down by 7.5 seconds on average) with intermediate visual simulations. In contrast, models exhibit inconsistent performance gains from visual simulations, improving on most tasks but declining in specific cases like tangram puzzles (GPT-4o, o1) and cube net folding (Claude-3.5, Gemini-2.0 Flash), indicating that models may not know how to effectively leverage intermediate visual information.
PDF161June 6, 2025