ChatPaper.aiChatPaper

GPT-5 a-t-il atteint l'intelligence spatiale ? Une étude empirique

Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

August 18, 2025
papers.authors: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI

papers.abstract

Les modèles multi-modaux ont réalisé des progrès remarquables ces dernières années. Néanmoins, ils continuent de présenter des limitations notables dans la compréhension et le raisonnement spatiaux, des capacités fondamentales pour atteindre l'intelligence artificielle générale. Avec la récente sortie de GPT-5, prétendument le modèle d'IA le plus puissant à ce jour, il est opportun d'examiner où se situent les modèles leaders sur la voie de l'intelligence spatiale. Tout d'abord, nous proposons une taxonomie complète des tâches spatiales qui unifie les benchmarks existants et discutons des défis liés à l'évaluation équitable. Nous évaluons ensuite les modèles propriétaires et open-source de pointe sur huit benchmarks clés, à un coût dépassant un milliard de tokens au total. Notre étude empirique révèle que (1) GPT-5 démontre une force sans précédent en intelligence spatiale, mais (2) reste en deçà des performances humaines sur un large éventail de tâches. De plus, nous (3) identifions les problèmes d'intelligence spatiale les plus difficiles pour les modèles multi-modaux, et (4) les modèles propriétaires ne présentent pas d'avantage décisif face aux problèmes les plus complexes. En complément, nous menons une évaluation qualitative sur un ensemble diversifié de scénarios intuitifs pour les humains mais qui échouent même pour les modèles multi-modaux les plus avancés.
English
Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies existing benchmarks and discuss the challenges in ensuring fair evaluation. We then evaluate state-of-the-art proprietary and open-source models on eight key benchmarks, at a cost exceeding one billion total tokens. Our empirical study reveals that (1) GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2) still falls short of human performance across a broad spectrum of tasks. Moreover, we (3) identify the more challenging spatial intelligence problems for multi-modal models, and (4) proprietary models do not exhibit a decisive advantage when facing the most difficult problems. In addition, we conduct a qualitative evaluation across a diverse set of scenarios that are intuitive for humans yet fail even the most advanced multi-modal models.
PDF232August 19, 2025