Рейтинг медалей OlympicArena: Какой ИИ на сегодняшний день самый интеллектуальный?

Аннотация

В данном отчете мы ставим следующий вопрос: Какая модель искусственного интеллекта на сегодняшний день является наиболее интеллектуальной, измеренной по олимпийскому стандарту (OlympicArena - олимпийский, многодисциплинарный, мультимодальный бенчмарк для сверхинтеллектуального искусственного интеллекта)? Мы специально сосредотачиваемся на недавно выпущенных моделях: Claude-3.5-Sonnet, Gemini-1.5-Pro и GPT-4o. Впервые мы предлагаем использовать подход с использованием таблицы медалей Олимпиады для ранжирования моделей искусственного интеллекта на основе их комплексной производительности в различных дисциплинах. Эмпирические результаты показывают: (1) Claude-3.5-Sonnet демонстрирует высокую конкурентоспособность в общей производительности по сравнению с GPT-4o, превосходя GPT-4o в нескольких областях (таких как Физика, Химия и Биология). (2) Gemini-1.5-Pro и GPT-4V ранжируются последовательно сразу за GPT-4o и Claude-3.5-Sonnet, но между ними имеется явный разрыв в производительности. (3) Производительность моделей искусственного интеллекта из сообщества с открытым исходным кодом значительно отстает от этих закрытых моделей. (4) Производительность этих моделей на данном бенчмарке оставляет желать лучшего, указывая на то, что у нас еще долгий путь к достижению сверхинтеллекта. Мы остаемся преданными непрерывному отслеживанию и оценке производительности последних мощных моделей на данном бенчмарке (доступно на https://github.com/GAIR-NLP/OlympicArena).

English

In this report, we pose the following question: Who is the most intelligent AI model to date, as measured by the OlympicArena (an Olympic-level, multi-discipline, multi-modal benchmark for superintelligent AI)? We specifically focus on the most recently released models: Claude-3.5-Sonnet, Gemini-1.5-Pro, and GPT-4o. For the first time, we propose using an Olympic medal Table approach to rank AI models based on their comprehensive performance across various disciplines. Empirical results reveal: (1) Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry, and Biology). (2) Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them. (3) The performance of AI models from the open-source community significantly lags behind these proprietary models. (4) The performance of these models on this benchmark has been less than satisfactory, indicating that we still have a long way to go before achieving superintelligence. We remain committed to continuously tracking and evaluating the performance of the latest powerful models on this benchmark (available at https://github.com/GAIR-NLP/OlympicArena).

Рейтинг медалей OlympicArena: Какой ИИ на сегодняшний день самый интеллектуальный?

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

Аннотация

Support