ChatPaper.aiChatPaper

MMLU-Pro: Ein robusteres und anspruchsvolleres Benchmark für die Mehrfachaufgaben-Sprachverständnis

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
Autoren: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

Zusammenfassung

Im Zeitalter von groß angelegten Sprachmodellen haben Benchmarks wie das Massive Multitask Language Understanding (MMLU) eine entscheidende Rolle dabei gespielt, die Grenzen dessen zu erweitern, was KI in der Sprachverarbeitung und dem Schlussfolgern über verschiedene Bereiche hinweg erreichen kann. Allerdings, während die Modelle weiter verbessert werden, hat ihre Leistung auf diesen Benchmarks begonnen zu stagnieren, was es zunehmend schwieriger macht, Unterschiede in den Fähigkeiten der Modelle zu erkennen. Dieses Paper stellt MMLU-Pro vor, einen erweiterten Datensatz, der darauf abzielt, den größtenteils wissensbasierten MMLU-Benchmark durch die Integration anspruchsvollerer, auf Schlussfolgerungen fokussierter Fragen und die Erweiterung des Antwortmöglichkeiten-Sets von vier auf zehn Optionen zu erweitern. Darüber hinaus eliminiert MMLU-Pro die trivialen und rauschenden Fragen in MMLU. Unsere experimentellen Ergebnisse zeigen, dass MMLU-Pro nicht nur die Herausforderung erhöht, was zu einem signifikanten Rückgang der Genauigkeit um 16% bis 33% im Vergleich zu MMLU führt, sondern auch eine größere Stabilität bei variierenden Aufforderungen demonstriert. Mit 24 verschiedenen Aufforderungsstilen getestet, verringerte sich die Sensibilität der Modellergebnisse gegenüber Aufforderungsvariationen von 4-5% in MMLU auf nur 2% in MMLU-Pro. Darüber hinaus stellten wir fest, dass Modelle, die Chain of Thought (CoT) Schlussfolgerungen nutzen, auf MMLU-Pro im Vergleich zur direkten Beantwortung eine bessere Leistung erzielten, was im starken Kontrast zu den Ergebnissen des ursprünglichen MMLU steht und darauf hinweist, dass MMLU-Pro komplexere Schlussfolgerungsfragen enthält. Unsere Bewertungen bestätigen, dass MMLU-Pro ein diskriminativerer Benchmark ist, um den Fortschritt auf diesem Gebiet besser zu verfolgen.
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.

Summary

AI-Generated Summary

PDF473December 12, 2024