OlympicArena:超知能AIのための多分野認知推論ベンチマーク
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
著者: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
要旨
人工知能(AI)の進化は、大規模言語モデル(LLMs)と大規模マルチモーダルモデル(LMMs)の進展によって大幅に加速され、かつて人間の知性に限定されていた問題解決や科学的発見(すなわちAI4Science)における認知推論能力の潜在的可能性を徐々に示しつつある。現在のモデルの認知推論能力を包括的に評価するために、我々はOlympicArenaを導入し、テキストのみおよびテキストと画像が交互に現れるモダリティにわたる11,163のバイリンガル問題を含む。これらの課題は、7つの分野と62の国際オリンピック競技にまたがる幅広い学問領域を網羅し、データ漏洩について厳密に検証されている。我々は、オリンピック競技の問題の複雑さと学際的な性質が、複雑な科学的課題に取り組み発見を促進するために不可欠であるため、AIの認知推論を評価するのに理想的であると主張する。回答のみの基準を用いてさまざまな分野でのパフォーマンスを評価するだけでなく、複数の視点から詳細な実験と分析を実施する。我々は、モデルの認知推論能力、異なるモダリティでのパフォーマンス、およびプロセスレベルの評価における結果に深く掘り下げる。これらは、長い解決策を必要とする複雑な推論タスクにとって重要である。我々の広範な評価により、GPT-4oのような先進的なモデルでさえ、全体の精度が39.97%に留まることが明らかになり、複雑な推論とマルチモーダル統合における現在のAIの限界を示している。OlympicArenaを通じて、我々はAIを超知能に向けて前進させ、科学およびそれ以上の分野でより複雑な課題に取り組む能力を備えることを目指している。また、AI研究を支援するための包括的なリソースセットを提供する。これには、ベンチマークデータセット、オープンソースのアノテーションプラットフォーム、詳細な評価ツール、および自動提出機能を備えたリーダーボードが含まれる。
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.Summary
AI-Generated Summary