OlympicArena Medaillenrangliste: Wer ist bisher die intelligenteste KI?

papers.abstract

In diesem Bericht stellen wir die Frage: Wer ist das intelligenteste KI-Modell, das bisher existiert, gemessen an der OlympicArena (einem olympischen, multidisziplinären, multimodalen Benchmark für superintelligente KI)? Wir konzentrieren uns speziell auf die neuesten Modelle: Claude-3.5-Sonnet, Gemini-1.5-Pro und GPT-4o. Erstmals schlagen wir vor, einen Ansatz mit einer olympischen Medaillentabelle zu verwenden, um KI-Modelle basierend auf ihrer umfassenden Leistung in verschiedenen Disziplinen zu bewerten. Empirische Ergebnisse zeigen: (1) Claude-3.5-Sonnet zeigt eine äußerst wettbewerbsfähige Gesamtleistung gegenüber GPT-4o, und übertrifft sogar GPT-4o in einigen Fächern (d.h. Physik, Chemie und Biologie). (2) Gemini-1.5-Pro und GPT-4V werden direkt hinter GPT-4o und Claude-3.5-Sonnet eingestuft, aber mit einem klaren Leistungsunterschied zwischen ihnen. (3) Die Leistung von KI-Modellen aus der Open-Source-Community hinkt diesen proprietären Modellen deutlich hinterher. (4) Die Leistung dieser Modelle in diesem Benchmark war weniger zufriedenstellend, was darauf hindeutet, dass wir noch einen langen Weg vor uns haben, um Superintelligenz zu erreichen. Wir bleiben weiterhin engagiert darin, die Leistung der neuesten leistungsstarken Modelle auf diesem Benchmark kontinuierlich zu verfolgen und zu bewerten (verfügbar unter https://github.com/GAIR-NLP/OlympicArena).

English

In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).

OlympicArena Medaillenrangliste: Wer ist bisher die intelligenteste KI?

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

papers.abstract

Support