O GPT-5 Alcançou Inteligência Espacial? Um Estudo Empírico
Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
August 18, 2025
Autores: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI
Resumo
Modelos multi-modais têm alcançado progressos notáveis nos últimos anos. No entanto, eles continuam a exibir limitações significativas em compreensão e raciocínio espacial, que são capacidades fundamentais para atingir a inteligência artificial geral. Com o recente lançamento do GPT-5, supostamente o modelo de IA mais poderoso até o momento, é oportuno examinar onde os modelos líderes estão no caminho para a inteligência espacial. Primeiro, propomos uma taxonomia abrangente de tarefas espaciais que unifica benchmarks existentes e discutimos os desafios em garantir uma avaliação justa. Em seguida, avaliamos modelos proprietários e de código aberto de ponta em oito benchmarks-chave, a um custo que excede um bilhão de tokens no total. Nosso estudo empírico revela que (1) o GPT-5 demonstra uma força sem precedentes em inteligência espacial, mas (2) ainda fica aquém do desempenho humano em uma ampla gama de tarefas. Além disso, (3) identificamos os problemas mais desafiadores de inteligência espacial para modelos multi-modais, e (4) modelos proprietários não exibem uma vantagem decisiva ao enfrentar os problemas mais difíceis. Adicionalmente, conduzimos uma avaliação qualitativa em um conjunto diversificado de cenários que são intuitivos para humanos, mas que desafiam até os modelos multi-modais mais avançados.
English
Multi-modal models have achieved remarkable progress in recent years.
Nevertheless, they continue to exhibit notable limitations in spatial
understanding and reasoning, which are fundamental capabilities to achieving
artificial general intelligence. With the recent release of GPT-5, allegedly
the most powerful AI model to date, it is timely to examine where the leading
models stand on the path toward spatial intelligence. First, we propose a
comprehensive taxonomy of spatial tasks that unifies existing benchmarks and
discuss the challenges in ensuring fair evaluation. We then evaluate
state-of-the-art proprietary and open-source models on eight key benchmarks, at
a cost exceeding one billion total tokens. Our empirical study reveals that (1)
GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2)
still falls short of human performance across a broad spectrum of tasks.
Moreover, we (3) identify the more challenging spatial intelligence problems
for multi-modal models, and (4) proprietary models do not exhibit a decisive
advantage when facing the most difficult problems. In addition, we conduct a
qualitative evaluation across a diverse set of scenarios that are intuitive for
humans yet fail even the most advanced multi-modal models.