OlympicArena: Benchmarking multidisziplinäres kognitives Denken für Superintelligente KI
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Autoren: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Zusammenfassung
Die Evolution der Künstlichen Intelligenz (KI) wurde maßgeblich durch Fortschritte in großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) beschleunigt, die allmählich potenzielle kognitive Denkfähigkeiten in der Problemlösung und wissenschaftlichen Entdeckung (d. h. KI für Wissenschaft) zeigen, die einst ausschließlich dem menschlichen Intellekt vorbehalten waren. Um die Leistung aktueller Modelle in kognitiven Denkfähigkeiten umfassend zu bewerten, stellen wir OlympicArena vor, die 11.163 zweisprachige Probleme in reinen Text- und Text-Bild-Modalitäten umfasst. Diese Herausforderungen umfassen eine Vielzahl von Disziplinen aus sieben Bereichen und 62 internationalen olympischen Wettbewerben, die sorgfältig auf Datenleckagen überprüft wurden. Wir argumentieren, dass die Herausforderungen in den olympischen Wettbewerbsproblemen ideal sind, um die kognitive Denkfähigkeit der KI zu bewerten, aufgrund ihrer Komplexität und interdisziplinären Natur, die für die Bewältigung komplexer wissenschaftlicher Herausforderungen und die Förderung von Entdeckungen unerlässlich sind. Über die Bewertung der Leistung in verschiedenen Disziplinen anhand von reinen Antwortkriterien hinaus führen wir detaillierte Experimente und Analysen aus verschiedenen Perspektiven durch. Wir gehen auf die kognitive Denkfähigkeit der Modelle ein, ihre Leistung in verschiedenen Modalitäten und ihre Ergebnisse in Evaluierungen auf Prozessebene, die für Aufgaben mit komplexem Denken und langen Lösungen von entscheidender Bedeutung sind. Unsere umfangreichen Bewertungen zeigen, dass selbst fortschrittliche Modelle wie GPT-4o nur eine Gesamtgenauigkeit von 39,97% erreichen, was die aktuellen KI-Beschränkungen im komplexen Denken und der multimodalen Integration verdeutlicht. Durch die OlympicArena streben wir danach, die KI hin zu Superintelligenz voranzutreiben, um sie für die Bewältigung komplexerer Herausforderungen in Wissenschaft und darüber hinaus zu rüsten. Wir stellen auch eine umfassende Reihe von Ressourcen zur Unterstützung der KI-Forschung bereit, darunter einen Benchmark-Datensatz, eine Open-Source-Annotationplattform, ein detailliertes Evaluierungstool und eine Rangliste mit automatischen Einreichungsfunktionen.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.Summary
AI-Generated Summary