Олимпийская арена: оценка многодисциплинарного когнитивного мышления для сверхинтеллектуального искусственного интеллекта
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Авторы: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Аннотация
Эволюция искусственного интеллекта (ИИ) значительно ускорена благодаря прогрессу в области больших языковых моделей (LLM) и больших мультимодальных моделей (LMM), постепенно демонстрируя потенциал когнитивного мышления в решении проблем и научных открытиях (т.е. ИИ4Науку), ранее считавшемся прерогативой человеческого интеллекта. Для всесторонней оценки производительности текущих моделей в когнитивном мышлении мы представляем OlympicArena, включающий 11 163 двуязычных задач в текстовом и комбинированном тексто-изображенческом форматах. Эти задачи охватывают широкий спектр дисциплин, охватывая семь областей и 62 международных олимпийских соревнования, тщательно проверенных на предмет утечки данных. Мы утверждаем, что задачи олимпийских соревнований идеально подходят для оценки когнитивного мышления ИИ из-за их сложности и междисциплинарного характера, что является важным для решения сложных научных задач и облегчения открытий. Помимо оценки производительности в различных дисциплинах с использованием критерия только ответа, мы проводим детальные эксперименты и анализы с разных точек зрения. Мы изучаем когнитивные способности моделей, их производительность в различных модальностях и результаты на уровне процесса, что является важным для задач, требующих сложного мышления с длинными решениями. Наши обширные оценки показывают, что даже передовые модели, такие как GPT-4o, достигают лишь 39,97% общей точности, что иллюстрирует текущие ограничения ИИ в сложном мышлении и мультимодальной интеграции. Через OlympicArena мы стремимся продвинуть ИИ к сверхинтеллекту, оснащая его для решения более сложных задач в науке и за ее пределами. Мы также предоставляем обширный набор ресурсов для поддержки исследований в области ИИ, включая набор данных для сравнения, платформу с открытым исходным кодом для аннотаций, детальный инструмент оценки и таблицу лидеров с функциями автоматической отправки.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.Summary
AI-Generated Summary