Classificação das Medalhas da OlympicArena: Quem é o AI mais inteligente até agora?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?
June 24, 2024
Autores: Zhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu
cs.AI
Resumo
Neste relatório, colocamos a seguinte questão: Quem é o modelo de IA mais inteligente até o momento, conforme medido pela OlympicArena (um benchmark de nível olímpico, multidisciplinar e multimodal para IA superinteligente)? Especificamente, focamos nos modelos mais recentemente lançados: Claude-3.5-Sonnet, Gemini-1.5-Pro e GPT-4o. Pela primeira vez, propomos usar uma abordagem de Tabela de Medalhas Olímpicas para classificar os modelos de IA com base em seu desempenho abrangente em várias disciplinas. Resultados empíricos revelam: (1) Claude-3.5-Sonnet mostra um desempenho geral altamente competitivo em relação ao GPT-4o, superando até mesmo o GPT-4o em algumas disciplinas (ou seja, Física, Química e Biologia). (2) Gemini-1.5-Pro e GPT-4V são classificados consecutivamente logo atrás do GPT-4o e do Claude-3.5-Sonnet, mas com uma clara diferença de desempenho entre eles. (3) O desempenho dos modelos de IA da comunidade de código aberto fica significativamente atrás desses modelos proprietários. (4) O desempenho desses modelos neste benchmark tem sido menos do que satisfatório, indicando que ainda temos um longo caminho a percorrer antes de alcançar a superinteligência. Permanecemos comprometidos em acompanhar e avaliar continuamente o desempenho dos últimos modelos poderosos neste benchmark (disponível em https://github.com/GAIR-NLP/OlympicArena).
English
In this report, we pose the following question: Who is the most intelligent
AI model to date, as measured by the OlympicArena (an Olympic-level,
multi-discipline, multi-modal benchmark for superintelligent AI)? We
specifically focus on the most recently released models: Claude-3.5-Sonnet,
Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic
medal Table approach to rank AI models based on their comprehensive performance
across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet
shows highly competitive overall performance over GPT-4o, even surpassing
GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2)
Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and
Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The
performance of AI models from the open-source community significantly lags
behind these proprietary models. (4) The performance of these models on this
benchmark has been less than satisfactory, indicating that we still have a long
way to go before achieving superintelligence. We remain committed to
continuously tracking and evaluating the performance of the latest powerful
models on this benchmark (available at
https://github.com/GAIR-NLP/OlympicArena).