MMLU-Pro: Un Benchmark di Comprensione del Linguaggio Multi-Task Più Robusto e Impegnativo
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
June 3, 2024
Autori: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI
Abstract
Nell'era dei modelli linguistici su larga scala, benchmark come il Massive Multitask Language Understanding (MMLU) sono stati fondamentali per spingere i confini di ciò che l'IA può ottenere nella comprensione e nel ragionamento linguistico attraverso diversi domini. Tuttavia, man mano che i modelli continuano a migliorare, le loro prestazioni su questi benchmark hanno iniziato a stabilizzarsi, rendendo sempre più difficile discernere le differenze nelle capacità dei modelli. Questo articolo introduce MMLU-Pro, un dataset potenziato progettato per estendere il benchmark MMLU, prevalentemente basato sulla conoscenza, integrando domande più impegnative focalizzate sul ragionamento e ampliando il set di scelte da quattro a dieci opzioni. Inoltre, MMLU-Pro elimina le domande banali e rumorose presenti in MMLU. I nostri risultati sperimentali mostrano che MMLU-Pro non solo aumenta la difficoltà, causando un calo significativo dell'accuratezza dal 16% al 33% rispetto a MMLU, ma dimostra anche una maggiore stabilità con diversi prompt. Con 24 stili di prompt testati, la sensibilità dei punteggi dei modelli alle variazioni dei prompt è diminuita dal 4-5% in MMLU a solo il 2% in MMLU-Pro. Inoltre, abbiamo riscontrato che i modelli che utilizzano il ragionamento a catena di pensiero (Chain of Thought, CoT) hanno ottenuto prestazioni migliori su MMLU-Pro rispetto alle risposte dirette, il che è in netto contrasto con i risultati ottenuti sul MMLU originale, indicando che MMLU-Pro include domande di ragionamento più complesse. Le nostre valutazioni confermano che MMLU-Pro è un benchmark più discriminativo per monitorare meglio i progressi nel campo.
English
In the age of large-scale language models, benchmarks like the Massive
Multitask Language Understanding (MMLU) have been pivotal in pushing the
boundaries of what AI can achieve in language comprehension and reasoning
across diverse domains. However, as models continue to improve, their
performance on these benchmarks has begun to plateau, making it increasingly
difficult to discern differences in model capabilities. This paper introduces
MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven
MMLU benchmark by integrating more challenging, reasoning-focused questions and
expanding the choice set from four to ten options. Additionally, MMLU-Pro
eliminates the trivial and noisy questions in MMLU. Our experimental results
show that MMLU-Pro not only raises the challenge, causing a significant drop in
accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability
under varying prompts. With 24 different prompt styles tested, the sensitivity
of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in
MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT)
reasoning achieved better performance on MMLU-Pro compared to direct answering,
which is in stark contrast to the findings on the original MMLU, indicating
that MMLU-Pro includes more complex reasoning questions. Our assessments
confirm that MMLU-Pro is a more discriminative benchmark to better track
progress in the field.