Достиг ли GPT-5 пространственного интеллекта? Эмпирическое исследование
Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
August 18, 2025
Авторы: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI
Аннотация
Мультимодальные модели достигли значительного прогресса в последние годы. Тем не менее, они продолжают демонстрировать заметные ограничения в пространственном понимании и рассуждении, которые являются фундаментальными способностями для достижения искусственного общего интеллекта. С недавним выпуском GPT-5, предположительно самой мощной на сегодняшний день модели ИИ, настало время оценить, где находятся ведущие модели на пути к пространственному интеллекту. Сначала мы предлагаем всеобъемлющую таксономию пространственных задач, которая объединяет существующие бенчмарки, и обсуждаем сложности обеспечения справедливой оценки. Затем мы оцениваем современные проприетарные и открытые модели на восьми ключевых бенчмарках, затратив более миллиарда токенов. Наше эмпирическое исследование показывает, что (1) GPT-5 демонстрирует беспрецедентную силу в пространственном интеллекте, однако (2) всё ещё отстаёт от человеческой производительности в широком спектре задач. Более того, мы (3) выявляем наиболее сложные проблемы пространственного интеллекта для мультимодальных моделей, и (4) проприетарные модели не демонстрируют решающего преимущества при решении самых сложных задач. Кроме того, мы проводим качественную оценку в разнообразных сценариях, которые интуитивно понятны для людей, но остаются недоступными даже для самых передовых мультимодальных моделей.
English
Multi-modal models have achieved remarkable progress in recent years.
Nevertheless, they continue to exhibit notable limitations in spatial
understanding and reasoning, which are fundamental capabilities to achieving
artificial general intelligence. With the recent release of GPT-5, allegedly
the most powerful AI model to date, it is timely to examine where the leading
models stand on the path toward spatial intelligence. First, we propose a
comprehensive taxonomy of spatial tasks that unifies existing benchmarks and
discuss the challenges in ensuring fair evaluation. We then evaluate
state-of-the-art proprietary and open-source models on eight key benchmarks, at
a cost exceeding one billion total tokens. Our empirical study reveals that (1)
GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2)
still falls short of human performance across a broad spectrum of tasks.
Moreover, we (3) identify the more challenging spatial intelligence problems
for multi-modal models, and (4) proprietary models do not exhibit a decisive
advantage when facing the most difficult problems. In addition, we conduct a
qualitative evaluation across a diverse set of scenarios that are intuitive for
humans yet fail even the most advanced multi-modal models.