Classifica delle Medaglie di OlympicArena: Qual è l'IA più intelligente finora?

Abstract

In questo rapporto, ci poniamo la seguente domanda: Qual è il modello di IA più intelligente fino ad oggi, misurato tramite OlympicArena (un benchmark di livello olimpico, multidisciplinare e multimodale per l'IA superintelligente)? Ci concentriamo specificamente sui modelli rilasciati più di recente: Claude-3.5-Sonnet, Gemini-1.5-Pro e GPT-4o. Per la prima volta, proponiamo di utilizzare un approccio basato sulla classifica delle medaglie olimpiche per ordinare i modelli di IA in base alle loro prestazioni complessive in varie discipline. I risultati empirici rivelano: (1) Claude-3.5-Sonnet mostra prestazioni complessive altamente competitive rispetto a GPT-4o, superandolo persino in alcune materie (ad esempio Fisica, Chimica e Biologia). (2) Gemini-1.5-Pro e GPT-4V si posizionano consecutivamente appena dietro GPT-4o e Claude-3.5-Sonnet, ma con un evidente divario di prestazioni tra di loro. (3) Le prestazioni dei modelli di IA della comunità open-source sono significativamente inferiori rispetto a questi modelli proprietari. (4) Le prestazioni di questi modelli su questo benchmark sono state meno che soddisfacenti, indicando che abbiamo ancora molta strada da fare prima di raggiungere la superintelligenza. Rimangiamo impegnati a monitorare e valutare continuamente le prestazioni degli ultimi modelli potenti su questo benchmark (disponibile su https://github.com/GAIR-NLP/OlympicArena).

English

In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).

Classifica delle Medaglie di OlympicArena: Qual è l'IA più intelligente finora?

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

Abstract

Support