Classement des médailles OlympicArena : Quelle est l'IA la plus intelligente à ce jour ?

papers.abstract

Dans ce rapport, nous posons la question suivante : Quel est le modèle d'IA le plus intelligent à ce jour, mesuré par l'OlympicArena (un benchmark de niveau olympique, multidisciplinaire et multimodal pour l'IA superintelligente) ? Nous nous concentrons spécifiquement sur les modèles les plus récemment publiés : Claude-3.5-Sonnet, Gemini-1.5-Pro et GPT-4o. Pour la première fois, nous proposons d'utiliser une approche de tableau des médailles olympiques pour classer les modèles d'IA en fonction de leurs performances globales dans diverses disciplines. Les résultats empiriques révèlent : (1) Claude-3.5-Sonnet montre une performance globale très compétitive par rapport à GPT-4o, surpassant même GPT-4o dans quelques matières (c'est-à-dire la physique, la chimie et la biologie). (2) Gemini-1.5-Pro et GPT-4V se classent consécutivement juste derrière GPT-4o et Claude-3.5-Sonnet, mais avec un écart de performance clair entre eux. (3) La performance des modèles d'IA de la communauté open source est nettement inférieure à celle de ces modèles propriétaires. (4) La performance de ces modèles sur ce benchmark a été moins que satisfaisante, indiquant que nous avons encore un long chemin à parcourir avant d'atteindre la superintelligence. Nous restons déterminés à suivre et à évaluer continuellement les performances des derniers modèles puissants sur ce benchmark (disponible à l'adresse https://github.com/GAIR-NLP/OlympicArena).

English

In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).

Classement des médailles OlympicArena : Quelle est l'IA la plus intelligente à ce jour ?

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

papers.abstract

Support