OlympicArena Medaillenrangliste: Wer ist bisher die intelligenteste KI?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
June 24, 2024
Autoren: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu
cs.AI
Zusammenfassung
In diesem Bericht stellen wir die Frage: Wer ist das intelligenteste KI-Modell, das bisher existiert, gemessen an der OlympicArena (einem olympischen, multidisziplinären, multimodalen Benchmark für superintelligente KI)? Wir konzentrieren uns speziell auf die neuesten Modelle: Claude-3.5-Sonnet, Gemini-1.5-Pro und GPT-4o. Erstmals schlagen wir vor, einen Ansatz mit einer olympischen Medaillentabelle zu verwenden, um KI-Modelle basierend auf ihrer umfassenden Leistung in verschiedenen Disziplinen zu bewerten. Empirische Ergebnisse zeigen: (1) Claude-3.5-Sonnet zeigt eine äußerst wettbewerbsfähige Gesamtleistung gegenüber GPT-4o, und übertrifft sogar GPT-4o in einigen Fächern (d.h. Physik, Chemie und Biologie). (2) Gemini-1.5-Pro und GPT-4V werden direkt hinter GPT-4o und Claude-3.5-Sonnet eingestuft, aber mit einem klaren Leistungsunterschied zwischen ihnen. (3) Die Leistung von KI-Modellen aus der Open-Source-Community hinkt diesen proprietären Modellen deutlich hinterher. (4) Die Leistung dieser Modelle in diesem Benchmark war weniger zufriedenstellend, was darauf hindeutet, dass wir noch einen langen Weg vor uns haben, um Superintelligenz zu erreichen. Wir bleiben weiterhin engagiert darin, die Leistung der neuesten leistungsstarken Modelle auf diesem Benchmark kontinuierlich zu verfolgen und zu bewerten (verfügbar unter https://github.com/GAIR-NLP/OlympicArena).
English
In this report, we pose the following question: Who is the most intelligent
AI model to date, as measured by the OlympicArena (an Olympic-level,
multi-discipline, multi-modal benchmark for superintelligent AI)? We
specifically focus on the most recently released models: Claude-3.5-Sonnet,
Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic
medal Table approach to rank AI models based on their comprehensive performance
across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet
shows highly competitive overall performance over GPT-4o, even surpassing
GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2)
Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and
Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The
performance of AI models from the open-source community significantly lags
behind these proprietary models. (4) The performance of these models on this
benchmark has been less than satisfactory, indicating that we still have a long
way to go before achieving superintelligence. We remain committed to
continuously tracking and evaluating the performance of the latest powerful
models on this benchmark (available at
https://github.com/GAIR-NLP/OlympicArena).Summary
AI-Generated Summary