Abbiamo Finito con MMLU?
Are We Done with MMLU?
June 6, 2024
Autori: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini
cs.AI
Abstract
Forse no. Identifichiamo e analizziamo gli errori nel popolare benchmark Massive Multitask Language Understanding (MMLU). Nonostante MMLU sia ampiamente adottato, la nostra analisi dimostra numerosi errori nella verità di base che oscurano le vere capacità dei modelli linguistici (LLM). Ad esempio, scopriamo che il 57% delle domande analizzate nel sottoinsieme di Virologia contiene errori. Per affrontare questo problema, introduciamo un framework completo per identificare gli errori nei dataset utilizzando una nuova tassonomia degli errori. Successivamente, creiamo MMLU-Redux, un sottoinsieme di 3.000 domande ri-annotate manualmente in 30 materie di MMLU. Utilizzando MMLU-Redux, dimostriamo significative discrepanze rispetto alle metriche di prestazione del modello originariamente riportate. I nostri risultati sostengono fortemente la revisione delle domande di MMLU affette da errori per migliorarne l'utilità e l'affidabilità future come benchmark. Pertanto, rendiamo disponibile MMLU-Redux per ulteriori annotazioni all'indirizzo https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
English
Maybe not. We identify and analyse errors in the popular Massive Multitask
Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted,
our analysis demonstrates numerous ground truth errors that obscure the true
capabilities of LLMs. For example, we find that 57% of the analysed questions
in the Virology subset contain errors. To address this issue, we introduce a
comprehensive framework for identifying dataset errors using a novel error
taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually
re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we
demonstrate significant discrepancies with the model performance metrics that
were originally reported. Our results strongly advocate for revising MMLU's
error-ridden questions to enhance its future utility and reliability as a
benchmark. Therefore, we open up MMLU-Redux for additional annotation
https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.