ChatPaper.aiChatPaper

MMLU-Pro: Een Robuuster en Uitdagender Benchmark voor Multi-Taak Taalbegrip

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
Auteurs: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

Samenvatting

In het tijdperk van grootschalige taalmodelen zijn benchmarks zoals de Massive Multitask Language Understanding (MMLU) cruciaal geweest in het verleggen van de grenzen van wat AI kan bereiken op het gebied van taalbegrip en redeneren over diverse domeinen. Naarmate modellen echter blijven verbeteren, begint hun prestatieniveau op deze benchmarks te stagneren, waardoor het steeds moeilijker wordt om verschillen in modelcapaciteiten te onderscheiden. Dit artikel introduceert MMLU-Pro, een verbeterde dataset die is ontworpen om de voornamelijk kennisgedreven MMLU-benchmark uit te breiden door het integreren van meer uitdagende, op redeneren gerichte vragen en het uitbreiden van de keuzeset van vier naar tien opties. Daarnaast elimineert MMLU-Pro de triviale en ruisachtige vragen in MMLU. Onze experimentele resultaten tonen aan dat MMLU-Pro niet alleen de uitdaging vergroot, wat resulteert in een significante daling in nauwkeurigheid van 16% tot 33% vergeleken met MMLU, maar ook grotere stabiliteit laat zien onder verschillende prompts. Met 24 verschillende promptstijlen die zijn getest, nam de gevoeligheid van modelscores voor promptvariaties af van 4-5% in MMLU naar slechts 2% in MMLU-Pro. Bovendien ontdekten we dat modellen die gebruikmaken van Chain of Thought (CoT)-redenering betere prestaties behaalden op MMLU-Pro vergeleken met direct antwoorden, wat in schril contrast staat met de bevindingen op de originele MMLU, wat aangeeft dat MMLU-Pro complexere redeneervragen bevat. Onze evaluaties bevestigen dat MMLU-Pro een meer onderscheidende benchmark is om de voortgang in het veld beter te volgen.
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
PDF513February 7, 2026