ChatPaper.aiChatPaper

SuperGPQA: Escalando la Evaluación de LLM a través de 285 Disciplinas de Posgrado

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

February 20, 2025
Autores: M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una notable competencia en disciplinas académicas principales como las matemáticas, la física y la informática. Sin embargo, el conocimiento humano abarca más de 200 disciplinas especializadas, superando ampliamente el alcance de los puntos de referencia existentes. Las capacidades de los LLMs en muchos de estos campos especializados, particularmente en la industria ligera, la agricultura y las disciplinas orientadas a los servicios, siguen siendo insuficientemente evaluadas. Para abordar esta brecha, presentamos SuperGPQA, un punto de referencia integral que evalúa el conocimiento y las capacidades de razonamiento a nivel de posgrado en 285 disciplinas. Nuestro punto de referencia emplea un novedoso mecanismo de filtrado colaborativo Humano-LLM para eliminar preguntas triviales o ambiguas mediante un refinamiento iterativo basado tanto en las respuestas de los LLMs como en la retroalimentación de expertos. Nuestros resultados experimentales revelan un margen significativo de mejora en el rendimiento de los LLMs más avanzados actualmente en diversos dominios del conocimiento (por ejemplo, el modelo centrado en el razonamiento DeepSeek-R1 logró la mayor precisión del 61,82% en SuperGPQA), destacando la considerable brecha entre las capacidades actuales de los modelos y la inteligencia artificial general. Además, presentamos perspectivas integrales derivadas de nuestra gestión de un proceso de anotación a gran escala, que involucró a más de 80 anotadores expertos y un sistema interactivo de colaboración Humano-LLM, ofreciendo una valiosa orientación metodológica para futuras iniciativas de investigación de alcance comparable.
English
Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

Summary

AI-Generated Summary

PDF10310February 21, 2025