SuperGPQA : Évaluation des modèles de langage à grande échelle à travers 285 disciplines universitaires de niveau master
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines
February 20, 2025
Auteurs: M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré une compétence remarquable dans les disciplines académiques principales telles que les mathématiques, la physique et l'informatique. Cependant, le savoir humain englobe plus de 200 disciplines spécialisées, dépassant largement le champ des benchmarks existants. Les capacités des LLM dans nombre de ces domaines spécialisés—en particulier dans les secteurs de l'industrie légère, de l'agriculture et des disciplines orientées services—restent insuffisamment évaluées. Pour combler cette lacune, nous présentons SuperGPQA, un benchmark complet qui évalue les connaissances et les capacités de raisonnement de niveau universitaire avancé à travers 285 disciplines. Notre benchmark utilise un mécanisme novateur de filtrage collaboratif Humain-LLM pour éliminer les questions triviales ou ambiguës grâce à un affinement itératif basé sur les réponses des LLM et les retours d'experts. Nos résultats expérimentaux révèlent une marge d'amélioration significative dans les performances des LLM actuels de pointe à travers divers domaines de connaissances (par exemple, le modèle axé sur le raisonnement DeepSeek-R1 a atteint la précision la plus élevée de 61,82 % sur SuperGPQA), soulignant l'écart considérable entre les capacités actuelles des modèles et l'intelligence artificielle générale. De plus, nous présentons des insights complets issus de la gestion d'un processus d'annotation à grande échelle, impliquant plus de 80 annotateurs experts et un système interactif de collaboration Humain-LLM, offrant ainsi des orientations méthodologiques précieuses pour les futures initiatives de recherche d'une envergure comparable.
English
Large language models (LLMs) have demonstrated remarkable proficiency in
mainstream academic disciplines such as mathematics, physics, and computer
science. However, human knowledge encompasses over 200 specialized disciplines,
far exceeding the scope of existing benchmarks. The capabilities of LLMs in
many of these specialized fields-particularly in light industry, agriculture,
and service-oriented disciplines-remain inadequately evaluated. To address this
gap, we present SuperGPQA, a comprehensive benchmark that evaluates
graduate-level knowledge and reasoning capabilities across 285 disciplines. Our
benchmark employs a novel Human-LLM collaborative filtering mechanism to
eliminate trivial or ambiguous questions through iterative refinement based on
both LLM responses and expert feedback. Our experimental results reveal
significant room for improvement in the performance of current state-of-the-art
LLMs across diverse knowledge domains (e.g., the reasoning-focused model
DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting
the considerable gap between current model capabilities and artificial general
intelligence. Additionally, we present comprehensive insights from our
management of a large-scale annotation process, involving over 80 expert
annotators and an interactive Human-LLM collaborative system, offering valuable
methodological guidance for future research initiatives of comparable scope.Summary
AI-Generated Summary