OlympicArena: Avaliação de Raciocínio Cognitivo Multidisciplinar para Inteligência Artificial Superinteligente
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Autores: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Resumo
A evolução da Inteligência Artificial (IA) tem sido significativamente acelerada pelos avanços em Modelos de Linguagem de Grande Escala (LLMs) e Modelos Multimodais de Grande Escala (LMMs), demonstrando gradualmente habilidades de raciocínio cognitivo na resolução de problemas e na descoberta científica (ou seja, IA4Science) que antes eram exclusivas do intelecto humano. Para avaliar de forma abrangente o desempenho dos modelos atuais em habilidades de raciocínio cognitivo, introduzimos o OlympicArena, que inclui 11.163 problemas bilíngues em modalidades de apenas texto e texto intercalado com imagens. Esses desafios abrangem uma ampla gama de disciplinas, cobrindo sete áreas e 62 competições olímpicas internacionais, rigorosamente examinadas para evitar vazamento de dados. Argumentamos que os desafios presentes nos problemas das competições olímpicas são ideais para avaliar o raciocínio cognitivo da IA devido à sua complexidade e natureza interdisciplinar, que são essenciais para enfrentar desafios científicos complexos e facilitar descobertas. Além de avaliar o desempenho em várias disciplinas usando critérios de resposta única, conduzimos experimentos e análises detalhadas de múltiplas perspectivas. Investigamos as habilidades de raciocínio cognitivo dos modelos, seu desempenho em diferentes modalidades e seus resultados em avaliações de nível de processo, que são vitais para tarefas que exigem raciocínio complexo com soluções extensas. Nossas extensas avaliações revelam que mesmo modelos avançados como o GPT-4o alcançam apenas uma precisão geral de 39,97%, ilustrando as limitações atuais da IA em raciocínio complexo e integração multimodal. Por meio do OlympicArena, visamos avançar a IA em direção à superinteligência, capacitando-a para enfrentar desafios mais complexos na ciência e além. Também fornecemos um conjunto abrangente de recursos para apoiar a pesquisa em IA, incluindo um conjunto de dados de referência, uma plataforma de anotação de código aberto, uma ferramenta de avaliação detalhada e um quadro de líderes com funcionalidades de submissão automática.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.