Classement des médailles OlympicArena : Quelle est l'IA la plus intelligente à ce jour ?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
June 24, 2024
Auteurs: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu
cs.AI
Résumé
Dans ce rapport, nous posons la question suivante : Quel est le modèle d'IA le plus intelligent à ce jour, mesuré par l'OlympicArena (un benchmark de niveau olympique, multidisciplinaire et multimodal pour l'IA superintelligente) ? Nous nous concentrons spécifiquement sur les modèles les plus récemment publiés : Claude-3.5-Sonnet, Gemini-1.5-Pro et GPT-4o. Pour la première fois, nous proposons d'utiliser une approche de tableau des médailles olympiques pour classer les modèles d'IA en fonction de leurs performances globales dans diverses disciplines. Les résultats empiriques révèlent : (1) Claude-3.5-Sonnet montre une performance globale très compétitive par rapport à GPT-4o, surpassant même GPT-4o dans quelques matières (c'est-à-dire la physique, la chimie et la biologie). (2) Gemini-1.5-Pro et GPT-4V se classent consécutivement juste derrière GPT-4o et Claude-3.5-Sonnet, mais avec un écart de performance clair entre eux. (3) La performance des modèles d'IA de la communauté open source est nettement inférieure à celle de ces modèles propriétaires. (4) La performance de ces modèles sur ce benchmark a été moins que satisfaisante, indiquant que nous avons encore un long chemin à parcourir avant d'atteindre la superintelligence. Nous restons déterminés à suivre et à évaluer continuellement les performances des derniers modèles puissants sur ce benchmark (disponible à l'adresse https://github.com/GAIR-NLP/OlympicArena).
English
In this report, we pose the following question: Who is the most intelligent
AI model to date, as measured by the OlympicArena (an Olympic-level,
multi-discipline, multi-modal benchmark for superintelligent AI)? We
specifically focus on the most recently released models: Claude-3.5-Sonnet,
Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic
medal Table approach to rank AI models based on their comprehensive performance
across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet
shows highly competitive overall performance over GPT-4o, even surpassing
GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2)
Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and
Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The
performance of AI models from the open-source community significantly lags
behind these proprietary models. (4) The performance of these models on this
benchmark has been less than satisfactory, indicating that we still have a long
way to go before achieving superintelligence. We remain committed to
continuously tracking and evaluating the performance of the latest powerful
models on this benchmark (available at
https://github.com/GAIR-NLP/OlympicArena).Summary
AI-Generated Summary