Hat GPT-5 räumliche Intelligenz erreicht? Eine empirische Studie
Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
August 18, 2025
papers.authors: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
cs.AI
papers.abstract
Multimodale Modelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Dennoch weisen sie weiterhin erhebliche Einschränkungen im räumlichen Verständnis und in der räumlichen Argumentation auf, die grundlegende Fähigkeiten für die Erreichung einer künstlichen allgemeinen Intelligenz darstellen. Mit der kürzlichen Veröffentlichung von GPT-5, angeblich dem leistungsstärksten KI-Modell bis heute, ist es an der Zeit zu untersuchen, wo die führenden Modelle auf dem Weg zur räumlichen Intelligenz stehen. Zunächst schlagen wir eine umfassende Taxonomie räumlicher Aufgaben vor, die bestehende Benchmarks vereint, und diskutieren die Herausforderungen bei der Sicherstellung einer fairen Bewertung. Anschließend evaluieren wir state-of-the-art proprietäre und Open-Source-Modelle anhand von acht zentralen Benchmarks, wobei die Kosten eine Milliarde Token insgesamt übersteigen. Unsere empirische Studie zeigt, dass (1) GPT-5 eine beispiellose Stärke in der räumlichen Intelligenz demonstriert, jedoch (2) immer noch hinter der menschlichen Leistung über ein breites Spektrum von Aufgaben zurückbleibt. Darüber hinaus identifizieren wir (3) die anspruchsvolleren Probleme der räumlichen Intelligenz für multimodale Modelle, und (4) proprietäre Modelle zeigen keinen entscheidenden Vorteil bei der Bewältigung der schwierigsten Probleme. Zusätzlich führen wir eine qualitative Bewertung über eine Vielzahl von Szenarien durch, die für Menschen intuitiv sind, aber selbst die fortschrittlichsten multimodalen Modelle scheitern lassen.
English
Multi-modal models have achieved remarkable progress in recent years.
Nevertheless, they continue to exhibit notable limitations in spatial
understanding and reasoning, which are fundamental capabilities to achieving
artificial general intelligence. With the recent release of GPT-5, allegedly
the most powerful AI model to date, it is timely to examine where the leading
models stand on the path toward spatial intelligence. First, we propose a
comprehensive taxonomy of spatial tasks that unifies existing benchmarks and
discuss the challenges in ensuring fair evaluation. We then evaluate
state-of-the-art proprietary and open-source models on eight key benchmarks, at
a cost exceeding one billion total tokens. Our empirical study reveals that (1)
GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2)
still falls short of human performance across a broad spectrum of tasks.
Moreover, we (3) identify the more challenging spatial intelligence problems
for multi-modal models, and (4) proprietary models do not exhibit a decisive
advantage when facing the most difficult problems. In addition, we conduct a
qualitative evaluation across a diverse set of scenarios that are intuitive for
humans yet fail even the most advanced multi-modal models.