ChatPaper.aiChatPaper

SuperGPQA: 285の大学院分野にわたる大規模言語モデル評価のスケーリング

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

February 20, 2025
著者: M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
cs.AI

要旨

大規模言語モデル(LLM)は、数学、物理学、コンピュータサイエンスなどの主要な学術分野において顕著な能力を発揮してきた。しかし、人間の知識は200以上の専門分野に及び、既存のベンチマークの範囲をはるかに超えている。これらの専門分野、特に軽工業、農業、サービス指向の分野におけるLLMの能力は、十分に評価されていない。このギャップを埋めるため、我々は285の分野にわたる大学院レベルの知識と推論能力を評価する包括的なベンチマーク「SuperGPQA」を提案する。本ベンチマークでは、LLMの応答と専門家のフィードバックに基づく反復的な精緻化を通じて、些末または曖昧な質問を排除する新たなHuman-LLM協調フィルタリングメカニズムを採用している。実験結果から、現在の最先端LLMの多様な知識領域における性能には大きな改善の余地があることが明らかになった(例えば、推論に焦点を当てたモデルDeepSeek-R1はSuperGPQAで最高の61.82%の精度を達成)。これは、現在のモデルの能力と人工汎用知能(AGI)との間に大きな隔たりがあることを示している。さらに、80人以上の専門家アノテーターとHuman-LLM協調システムを活用した大規模なアノテーションプロセスの管理から得られた包括的な知見を提示し、今後の同様のスコープを持つ研究イニシアチブに対する貴重な方法論的指針を提供する。
English
Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

Summary

AI-Generated Summary

PDF10310February 21, 2025