ChatPaper.aiChatPaper

MMLU-Pro:より堅牢で挑戦的なマルチタスク言語理解ベンチマーク

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
著者: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

要旨

大規模言語モデルの時代において、Massive Multitask Language Understanding (MMLU) のようなベンチマークは、AIが多様な領域における言語理解と推論において達成可能な限界を押し広げる上で重要な役割を果たしてきた。しかし、モデルが継続的に改善されるにつれ、これらのベンチマークにおける性能は頭打ちになり始め、モデルの能力の違いを識別することがますます困難になっている。本論文では、主に知識駆動型のMMLUベンチマークを拡張するために設計された強化版データセット、MMLU-Proを紹介する。MMLU-Proは、より挑戦的で推論に焦点を当てた質問を統合し、選択肢を4つから10個に拡大することで、MMLUを発展させたものである。さらに、MMLU-ProはMMLUに含まれる些末でノイズの多い質問を排除している。実験結果によると、MMLU-Proは難易度を引き上げ、MMLUと比較して精度が16%から33%大幅に低下するだけでなく、様々なプロンプトの下でより高い安定性を示している。24種類の異なるプロンプトスタイルをテストした結果、モデルのスコアがプロンプトの変動に対して示す感度は、MMLUでは4-5%であったのに対し、MMLU-Proではわずか2%に減少した。さらに、Chain of Thought (CoT) 推論を利用するモデルは、直接回答する場合と比較してMMLU-Proでより良い性能を達成することがわかった。これは、元のMMLUでの結果とは対照的であり、MMLU-Proがより複雑な推論問題を含んでいることを示唆している。我々の評価は、MMLU-Proがこの分野の進歩をより良く追跡するための識別力の高いベンチマークであることを確認している。
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
PDF483December 12, 2024