MMLU를 끝냈는가?
Are We Done with MMLU?
June 6, 2024
저자: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini
cs.AI
초록
그렇지 않을 수도 있습니다. 우리는 대규모 다중 작업 언어 이해(Massive Multitask Language Understanding, MMLU) 벤치마크에서 발생하는 오류를 식별하고 분석했습니다. MMLU가 널리 채택되고 있음에도 불구하고, 우리의 분석은 대형 언어 모델(LLM)의 진정한 능력을 가리는 수많은 정답 오류를 보여줍니다. 예를 들어, 바이러스학(Virology) 하위 집합에서 분석된 질문의 57%가 오류를 포함하고 있음을 발견했습니다. 이 문제를 해결하기 위해, 우리는 새로운 오류 분류 체계를 사용하여 데이터셋 오류를 식별하기 위한 포괄적인 프레임워크를 소개합니다. 그런 다음, MMLU의 30개 주제에 걸쳐 3,000개의 질문을 수동으로 재주석한 MMLU-Redux를 생성했습니다. MMLU-Redux를 사용하여, 원래 보고된 모델 성능 지표와의 상당한 차이를 입증했습니다. 우리의 결과는 MMLU의 오류가 많은 질문을 수정하여 향후 벤치마크로서의 유용성과 신뢰성을 높일 것을 강력히 권장합니다. 따라서, 우리는 추가 주석을 위해 MMLU-Redux를 공개합니다: https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
English
Maybe not. We identify and analyse errors in the popular Massive Multitask
Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted,
our analysis demonstrates numerous ground truth errors that obscure the true
capabilities of LLMs. For example, we find that 57% of the analysed questions
in the Virology subset contain errors. To address this issue, we introduce a
comprehensive framework for identifying dataset errors using a novel error
taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually
re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we
demonstrate significant discrepancies with the model performance metrics that
were originally reported. Our results strongly advocate for revising MMLU's
error-ridden questions to enhance its future utility and reliability as a
benchmark. Therefore, we open up MMLU-Redux for additional annotation
https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.Summary
AI-Generated Summary