ChatPaper.aiChatPaper

MMLU-Pro : Un benchmark plus robust et exigeant pour la compréhension du langage multitâche

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
Auteurs: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

Résumé

À l'ère des modèles linguistiques à grande échelle, des benchmarks comme le Massive Multitask Language Understanding (MMLU) ont joué un rôle crucial pour repousser les limites de ce que l'IA peut accomplir en matière de compréhension et de raisonnement linguistiques à travers divers domaines. Cependant, à mesure que les modèles continuent de s'améliorer, leurs performances sur ces benchmarks commencent à plafonner, rendant de plus en plus difficile la distinction des différences de capacités entre les modèles. Cet article présente MMLU-Pro, un ensemble de données amélioré conçu pour étendre le benchmark MMLU, principalement axé sur les connaissances, en intégrant des questions plus complexes centrées sur le raisonnement et en élargissant le choix des réponses de quatre à dix options. De plus, MMLU-Pro élimine les questions triviales et bruyantes présentes dans MMLU. Nos résultats expérimentaux montrent que MMLU-Pro non seulement relève le défi, entraînant une baisse significative de la précision de 16 % à 33 % par rapport à MMLU, mais démontre également une plus grande stabilité face à différentes formulations de prompts. Avec 24 styles de prompts testés, la sensibilité des scores des modèles aux variations de prompts est passée de 4-5 % dans MMLU à seulement 2 % dans MMLU-Pro. Par ailleurs, nous avons constaté que les modèles utilisant le raisonnement en chaîne de pensée (Chain of Thought, CoT) obtenaient de meilleures performances sur MMLU-Pro par rapport aux réponses directes, ce qui contraste fortement avec les observations sur le MMLU original, indiquant que MMLU-Pro inclut des questions de raisonnement plus complexes. Nos évaluations confirment que MMLU-Pro est un benchmark plus discriminant pour mieux suivre les progrès dans le domaine.
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.

Summary

AI-Generated Summary

PDF473December 12, 2024