ChatPaper.aiChatPaper

GPT-5は空間知能を達成したか?実証的研究

Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

August 18, 2025
著者: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI

要旨

近年、マルチモーダルモデルは目覚ましい進歩を遂げてきた。しかしながら、人工汎用知能を達成するための基本的な能力である空間理解と推論において、依然として顕著な限界を示している。最近リリースされたGPT-5は、現在最も強力なAIモデルとされており、主要なモデルが空間知能への道のりでどの位置に立っているかを検討するのに適切な時期である。まず、既存のベンチマークを統合する空間タスクの包括的な分類体系を提案し、公平な評価を確保する上での課題について議論する。次に、総計10億トークンを超えるコストをかけて、最先端のプロプライエタリモデルとオープンソースモデルを8つの主要なベンチマークで評価する。我々の実証研究は、(1) GPT-5が空間知能において前例のない強さを示す一方で、(2) 幅広いタスクにおいて人間の性能には及ばないことを明らかにした。さらに、(3) マルチモーダルモデルにとってより困難な空間知能の問題を特定し、(4) 最も難しい問題に直面した場合、プロプライエタリモデルが決定的な優位性を示さないことを明らかにした。加えて、人間にとって直感的であるが、最も先進的なマルチモーダルモデルでも失敗する多様なシナリオに対する定性的評価を実施する。
English
Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and discuss the challenges in ensuring fair evaluation. We then evaluate state-of-the-art proprietary and open-source models on eight key benchmarks, at a cost exceeding one billion total tokens. Our empirical study reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2) still falls short of human performance across a broad spectrum of tasks. Moreover, we (3) identify the more challenging spatial intelligence problems for multi-modal models, and (4) proprietary models do not exhibit a decisive advantage when facing the most difficult problems. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans yet fail even the most advanced multi-modal models.
PDF232August 19, 2025