ChatPaper.aiChatPaper

GPT-5가 공간 지능을 달성했는가? 실증적 연구

Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

August 18, 2025
저자: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI

초록

최근 멀티모달 모델은 눈부신 발전을 이루었습니다. 그럼에도 불구하고, 이들은 여전히 공간 이해와 추론이라는 인공 일반 지능 달성을 위한 기본적인 능력에서 뚜렷한 한계를 보이고 있습니다. 최근 출시된 GPT-5는 현재까지 가장 강력한 AI 모델로 알려져 있으며, 이제는 선도적인 모델들이 공간 지능을 향한 여정에서 어디에 위치하는지 살펴볼 적절한 시기입니다. 먼저, 우리는 기존 벤치마크를 통합하는 포괄적인 공간 작업 분류 체계를 제안하고 공정한 평가를 보장하기 위한 과제들을 논의합니다. 그런 다음, 총 10억 개 이상의 토큰을 소비하며 8개의 주요 벤치마크에서 최첨단 독점 및 오픈소스 모델을 평가합니다. 우리의 실증 연구는 (1) GPT-5가 공간 지능에서 전례 없는 강점을 보이지만, (2) 여전히 다양한 작업에서 인간의 성능에 미치지 못함을 밝혀냅니다. 또한, 우리는 (3) 멀티모달 모델에게 더 도전적인 공간 지능 문제들을 식별하고, (4) 가장 어려운 문제에 직면했을 때 독점 모델이 결정적인 우위를 보이지 않음을 확인했습니다. 추가적으로, 우리는 인간에게는 직관적이지만 가장 발전된 멀티모달 모델조차 실패하는 다양한 시나리오에 대한 질적 평가를 수행합니다.
English
Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and discuss the challenges in ensuring fair evaluation. We then evaluate state-of-the-art proprietary and open-source models on eight key benchmarks, at a cost exceeding one billion total tokens. Our empirical study reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2) still falls short of human performance across a broad spectrum of tasks. Moreover, we (3) identify the more challenging spatial intelligence problems for multi-modal models, and (4) proprietary models do not exhibit a decisive advantage when facing the most difficult problems. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans yet fail even the most advanced multi-modal models.
PDF232August 19, 2025