オリンピックアリーナ メダルランキング:これまでで最も知能の高いAIは誰か?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
June 24, 2024
著者: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu
cs.AI
要旨
本報告書では、以下の問いを提示します:OlympicArena(オリンピックレベルの多分野・多モーダルな超知能AIベンチマーク)で測定された場合、これまでで最も知能の高いAIモデルは誰か?特に、最近リリースされたモデルであるClaude-3.5-Sonnet、Gemini-1.5-Pro、およびGPT-4oに焦点を当てます。初めて、オリンピックメダル表のアプローチを用いて、AIモデルをさまざまな分野での総合的なパフォーマンスに基づいてランク付けすることを提案します。実証結果は以下の通りです:(1) Claude-3.5-Sonnetは、GPT-4oを上回る総合的なパフォーマンスを示し、いくつかの科目(物理学、化学、生物学)ではGPT-4oを凌駕しています。(2) Gemini-1.5-ProとGPT-4Vは、GPT-4oとClaude-3.5-Sonnetに続いて連続してランク付けされていますが、明確なパフォーマンスの差があります。(3) オープンソースコミュニティのAIモデルのパフォーマンスは、これらのプロプライエタリモデルに大きく遅れを取っています。(4) これらのモデルのこのベンチマークでのパフォーマンスは十分とは言えず、超知能を達成するまでにはまだ長い道のりがあることを示しています。私たちは、このベンチマークでの最新の強力なモデルのパフォーマンスを継続的に追跡・評価することを約束します(https://github.com/GAIR-NLP/OlympicArenaで利用可能)。
English
In this report, we pose the following question: Who is the most intelligent
AI model to date, as measured by the OlympicArena (an Olympic-level,
multi-discipline, multi-modal benchmark for superintelligent AI)? We
specifically focus on the most recently released models: Claude-3.5-Sonnet,
Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic
medal Table approach to rank AI models based on their comprehensive performance
across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet
shows highly competitive overall performance over GPT-4o, even surpassing
GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2)
Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and
Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The
performance of AI models from the open-source community significantly lags
behind these proprietary models. (4) The performance of these models on this
benchmark has been less than satisfactory, indicating that we still have a long
way to go before achieving superintelligence. We remain committed to
continuously tracking and evaluating the performance of the latest powerful
models on this benchmark (available at
https://github.com/GAIR-NLP/OlympicArena).Summary
AI-Generated Summary