Estamos Terminados com o MMLU?
Are We Done with MMLU?
June 6, 2024
Autores: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini
cs.AI
Resumo
Talvez não. Identificamos e analisamos erros no popular benchmark Massive Multitask Language Understanding (MMLU). Embora o MMLU seja amplamente adotado, nossa análise demonstra inúmeros erros na verdade fundamental que obscurecem as verdadeiras capacidades dos LLMs. Por exemplo, descobrimos que 57% das questões analisadas no subconjunto de Virologia contêm erros. Para abordar essa questão, introduzimos um framework abrangente para identificar erros em conjuntos de dados, utilizando uma nova taxonomia de erros. Em seguida, criamos o MMLU-Redux, que é um subconjunto de 3.000 questões reanotadas manualmente em 30 disciplinas do MMLU. Usando o MMLU-Redux, demonstramos discrepâncias significativas em relação às métricas de desempenho dos modelos originalmente relatadas. Nossos resultados defendem fortemente a revisão das questões do MMLU que contêm erros, a fim de aumentar sua utilidade e confiabilidade futuras como benchmark. Portanto, disponibilizamos o MMLU-Redux para anotações adicionais em https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
English
Maybe not. We identify and analyse errors in the popular Massive Multitask
Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted,
our analysis demonstrates numerous ground truth errors that obscure the true
capabilities of LLMs. For example, we find that 57% of the analysed questions
in the Virology subset contain errors. To address this issue, we introduce a
comprehensive framework for identifying dataset errors using a novel error
taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually
re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we
demonstrate significant discrepancies with the model performance metrics that
were originally reported. Our results strongly advocate for revising MMLU's
error-ridden questions to enhance its future utility and reliability as a
benchmark. Therefore, we open up MMLU-Redux for additional annotation
https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.