OlympicArena: Evaluación del Razonamiento Cognitivo Multidisciplinario para la Inteligencia Artificial Superinteligente
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI
June 18, 2024
Autores: Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu
cs.AI
Resumen
La evolución de la Inteligencia Artificial (IA) se ha acelerado significativamente gracias a los avances en los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos Multimodales de Gran Escala (LMMs), mostrando gradualmente capacidades potenciales de razonamiento cognitivo en la resolución de problemas y el descubrimiento científico (es decir, IA para la Ciencia o AI4Science), habilidades que antes eran exclusivas del intelecto humano. Para evaluar de manera integral el rendimiento de los modelos actuales en cuanto a habilidades de razonamiento cognitivo, presentamos OlympicArena, que incluye 11,163 problemas bilingües en modalidades de solo texto y texto intercalado con imágenes. Estos desafíos abarcan una amplia gama de disciplinas que cubren siete campos y 62 competencias olímpicas internacionales, rigurosamente examinadas para detectar fugas de datos. Argumentamos que los problemas de las competiciones olímpicas son ideales para evaluar el razonamiento cognitivo de la IA debido a su complejidad y naturaleza interdisciplinaria, características esenciales para abordar desafíos científicos complejos y facilitar descubrimientos. Más allá de evaluar el rendimiento en diversas disciplinas utilizando criterios de solo respuesta, realizamos experimentos y análisis detallados desde múltiples perspectivas. Profundizamos en las habilidades de razonamiento cognitivo de los modelos, su rendimiento en diferentes modalidades y sus resultados en evaluaciones a nivel de proceso, cruciales para tareas que requieren razonamiento complejo con soluciones extensas. Nuestras evaluaciones exhaustivas revelan que incluso modelos avanzados como GPT-4o solo alcanzan un 39.97% de precisión general, ilustrando las limitaciones actuales de la IA en el razonamiento complejo y la integración multimodal. A través de OlympicArena, buscamos impulsar la IA hacia la superinteligencia, equipándola para abordar desafíos más complejos en la ciencia y más allá. También proporcionamos un conjunto completo de recursos para apoyar la investigación en IA, incluyendo un conjunto de datos de referencia, una plataforma de anotación de código abierto, una herramienta de evaluación detallada y un ranking con funciones de envío automático.
English
The evolution of Artificial Intelligence (AI) has been significantly
accelerated by advancements in Large Language Models (LLMs) and Large
Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning
abilities in problem-solving and scientific discovery (i.e., AI4Science) once
exclusive to human intellect. To comprehensively evaluate current models'
performance in cognitive reasoning abilities, we introduce OlympicArena, which
includes 11,163 bilingual problems across both text-only and interleaved
text-image modalities. These challenges encompass a wide range of disciplines
spanning seven fields and 62 international Olympic competitions, rigorously
examined for data leakage. We argue that the challenges in Olympic competition
problems are ideal for evaluating AI's cognitive reasoning due to their
complexity and interdisciplinary nature, which are essential for tackling
complex scientific challenges and facilitating discoveries. Beyond evaluating
performance across various disciplines using answer-only criteria, we conduct
detailed experiments and analyses from multiple perspectives. We delve into the
models' cognitive reasoning abilities, their performance across different
modalities, and their outcomes in process-level evaluations, which are vital
for tasks requiring complex reasoning with lengthy solutions. Our extensive
evaluations reveal that even advanced models like GPT-4o only achieve a 39.97%
overall accuracy, illustrating current AI limitations in complex reasoning and
multimodal integration. Through the OlympicArena, we aim to advance AI towards
superintelligence, equipping it to address more complex challenges in science
and beyond. We also provide a comprehensive set of resources to support AI
research, including a benchmark dataset, an open-source annotation platform, a
detailed evaluation tool, and a leaderboard with automatic submission features.Summary
AI-Generated Summary