올림픽아레나: 초지능 AI를 위한 다학제적 인지 추론 벤치마킹
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
저자: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
초록
인공지능(AI)의 진화는 대규모 언어 모델(LLMs)과 대규모 멀티모달 모델(LMMs)의 발전으로 크게 가속화되었으며, 이는 문제 해결과 과학적 발견(즉, AI4Science)에서 한때 인간의 지적 능력에만 국한되었던 인지적 추론 능력의 잠재력을 점차 보여주고 있습니다. 현재 모델들의 인지적 추론 능력을 종합적으로 평가하기 위해, 우리는 텍스트 전용 및 텍스트-이미지 혼합 모달리티를 아우르는 11,163개의 이중 언어 문제로 구성된 OlympicArena를 소개합니다. 이러한 도전 과제들은 7개 분야와 62개의 국제 올림픽 대회를 아우르는 다양한 학문 분야를 포함하며, 데이터 누출에 대해 엄격히 검증되었습니다. 우리는 올림픽 대회 문제의 복잡성과 학제 간 특성이 복잡한 과학적 도전 과제를 해결하고 발견을 촉진하는 데 필수적이므로, 이러한 문제들이 AI의 인지적 추론 능력을 평가하는 데 이상적이라고 주장합니다. 다양한 학문 분야에서의 성능을 답변만으로 평가하는 것을 넘어, 우리는 여러 관점에서 세부적인 실험과 분석을 수행합니다. 우리는 모델들의 인지적 추론 능력, 다양한 모달리티에서의 성능, 그리고 긴 해결 과정이 필요한 복잡한 추론 작업에 필수적인 프로세스 수준 평가 결과를 심층적으로 탐구합니다. 우리의 광범위한 평가 결과, GPT-4o와 같은 고급 모델조차도 전체 정확도가 39.97%에 불과하여, 복잡한 추론과 멀티모달 통합에서 현재 AI의 한계를 보여줍니다. OlympicArena를 통해, 우리는 AI가 초지능으로 나아가 과학 및 그 이상의 더 복잡한 도전 과제를 해결할 수 있도록 발전시키고자 합니다. 또한, 우리는 AI 연구를 지원하기 위해 벤치마크 데이터셋, 오픈소스 주석 플랫폼, 세부 평가 도구, 그리고 자동 제출 기능이 포함된 리더보드 등 종합적인 리소스 세트를 제공합니다.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.Summary
AI-Generated Summary