OlympicArena: Benchmarking del Ragionamento Cognitivo Multidisciplinare per l'Intelligenza Artificiale Superintelligente
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Autori: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Abstract
L'evoluzione dell'Intelligenza Artificiale (IA) è stata significativamente accelerata dai progressi nei Modelli Linguistici di Grande Scala (LLM) e nei Modelli Multimodali di Grande Scala (LMM), che gradualmente dimostrano potenziali capacità di ragionamento cognitivo nella risoluzione di problemi e nella scoperta scientifica (ad esempio, AI4Science), una volta esclusive dell'intelletto umano. Per valutare in modo completo le prestazioni dei modelli attuali nelle capacità di ragionamento cognitivo, introduciamo OlympicArena, che include 11.163 problemi bilingue in modalità testuale e interleaved testo-immagine. Queste sfide abbracciano un'ampia gamma di discipline che coprono sette campi e 62 competizioni olimpiche internazionali, rigorosamente esaminate per evitare perdite di dati. Sosteniamo che le sfide nei problemi delle competizioni olimpiche sono ideali per valutare il ragionamento cognitivo dell'IA a causa della loro complessità e natura interdisciplinare, essenziali per affrontare sfide scientifiche complesse e facilitare scoperte. Oltre a valutare le prestazioni in varie discipline utilizzando criteri basati solo sulla risposta, conduciamo esperimenti e analisi dettagliate da molteplici prospettive. Approfondiamo le capacità di ragionamento cognitivo dei modelli, le loro prestazioni in diverse modalità e i loro risultati nelle valutazioni a livello di processo, cruciali per compiti che richiedono ragionamenti complessi con soluzioni lunghe. Le nostre valutazioni estensive rivelano che anche modelli avanzati come GPT-4o raggiungono solo un'accuratezza complessiva del 39,97%, illustrando le attuali limitazioni dell'IA nel ragionamento complesso e nell'integrazione multimodale. Attraverso OlympicArena, miriamo a far progredire l'IA verso la superintelligenza, dotandola degli strumenti per affrontare sfide più complesse nella scienza e oltre. Forniamo anche un insieme completo di risorse per supportare la ricerca sull'IA, inclusi un dataset di benchmark, una piattaforma di annotazione open-source, uno strumento di valutazione dettagliato e una classifica con funzionalità di invio automatico.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.