OlympicArena: Benchmarking van multidisciplinair cognitief redeneren voor superintelligente AI
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Auteurs: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Samenvatting
De evolutie van Kunstmatige Intelligentie (AI) is aanzienlijk versneld door vooruitgang in Grote Taalmodellen (LLMs) en Grote Multimodale Modellen (LMMs), die geleidelijk potentieel vertonen voor cognitieve redeneervaardigheden in probleemoplossing en wetenschappelijke ontdekking (d.w.z. AI4Science), voorheen voorbehouden aan menselijk intellect. Om de prestaties van huidige modellen in cognitieve redeneervaardigheden uitgebreid te evalueren, introduceren we OlympicArena, dat 11.163 tweetalige problemen omvat in zowel tekstuele als gecombineerde tekst-beeld modaliteiten. Deze uitdagingen beslaan een breed scala aan disciplines uit zeven vakgebieden en 62 internationale Olympische wedstrijden, die rigoureus zijn onderzocht op datalekken. Wij stellen dat de uitdagingen in Olympische wedstrijdproblemen ideaal zijn voor het evalueren van AI's cognitieve redeneervaardigheden vanwege hun complexiteit en interdisciplinaire aard, die essentieel zijn voor het aanpakken van complexe wetenschappelijke uitdagingen en het faciliteren van ontdekkingen. Naast het evalueren van prestaties in verschillende disciplines op basis van alleen-antwoordcriteria, voeren we gedetailleerde experimenten en analyses uit vanuit meerdere perspectieven. We verdiepen ons in de cognitieve redeneervaardigheden van de modellen, hun prestaties in verschillende modaliteiten, en hun resultaten in procesniveau-evaluaties, die cruciaal zijn voor taken die complex redeneren met uitgebreide oplossingen vereisen. Onze uitgebreide evaluaties tonen aan dat zelfs geavanceerde modellen zoals GPT-4o slechts een algehele nauwkeurigheid van 39,97% bereiken, wat de huidige beperkingen van AI illustreert in complex redeneren en multimodale integratie. Via de OlympicArena streven we ernaar AI naar superintelligentie te bevorderen, zodat het in staat is om complexere uitdagingen in de wetenschap en daarbuiten aan te pakken. We bieden ook een uitgebreide set bronnen om AI-onderzoek te ondersteunen, waaronder een benchmarkdataset, een open-source annotatieplatform, een gedetailleerd evaluatie-instrument en een leaderboard met automatische indieningsfuncties.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.