OlympicArena : Évaluation des capacités de raisonnement cognitif multidisciplinaire pour l'intelligence artificielle superintelligente
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Auteurs: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Résumé
L'évolution de l'Intelligence Artificielle (IA) a été considérablement accélérée par les progrès des modèles de langage à grande échelle (LLMs) et des modèles multimodaux à grande échelle (LMMs), démontrant progressivement des capacités de raisonnement cognitif dans la résolution de problèmes et la découverte scientifique (c'est-à-dire, AI4Science), autrefois réservées à l'intellect humain. Pour évaluer de manière exhaustive les performances actuelles des modèles en matière de raisonnement cognitif, nous introduisons OlympicArena, qui comprend 11 163 problèmes bilingues couvrant à la fois les modalités textuelles et intercalées texte-image. Ces défis englobent un large éventail de disciplines couvrant sept domaines et 62 compétitions olympiques internationales, rigoureusement examinés pour éviter les fuites de données. Nous soutenons que les défis des problèmes de compétition olympique sont idéaux pour évaluer le raisonnement cognitif de l'IA en raison de leur complexité et de leur nature interdisciplinaire, essentielles pour relever des défis scientifiques complexes et faciliter les découvertes. Au-delà de l'évaluation des performances à travers diverses disciplines en utilisant des critères basés uniquement sur les réponses, nous menons des expériences et des analyses détaillées sous plusieurs angles. Nous explorons les capacités de raisonnement cognitif des modèles, leurs performances à travers différentes modalités, et leurs résultats dans des évaluations au niveau du processus, cruciales pour les tâches nécessitant un raisonnement complexe avec des solutions longues. Nos évaluations approfondies révèlent que même des modèles avancés comme GPT-4o n'atteignent qu'une précision globale de 39,97%, illustrant les limites actuelles de l'IA dans le raisonnement complexe et l'intégration multimodale. À travers OlympicArena, nous visons à faire progresser l'IA vers la superintelligence, en l'équipant pour relever des défis plus complexes dans la science et au-delà. Nous fournissons également un ensemble complet de ressources pour soutenir la recherche en IA, incluant un ensemble de données de référence, une plateforme d'annotation open-source, un outil d'évaluation détaillé, et un classement avec des fonctionnalités de soumission automatique.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.Summary
AI-Generated Summary