MMLU-Pro:より堅牢で挑戦的なマルチタスク言語理解ベンチマークMMLU-Pro: A More Robust and Challenging Multi-Task Language
Understanding Benchmark
大規模言語モデルの時代において、Massive Multitask Language Understanding (MMLU) のようなベンチマークは、AIが多様な領域における言語理解と推論において達成可能な限界を押し広げる上で重要な役割を果たしてきた。しかし、モデルが継続的に改善されるにつれ、これらのベンチマークにおける性能は頭打ちになり始め、モデルの能力の違いを識別することがますます困難になっている。本論文では、主に知識駆動型のMMLUベンチマークを拡張するために設計された強化版データセット、MMLU-Proを紹介する。MMLU-Proは、より挑戦的で推論に焦点を当てた質問を統合し、選択肢を4つから10個に拡大することで、MMLUを発展させたものである。さらに、MMLU-ProはMMLUに含まれる些末でノイズの多い質問を排除している。実験結果によると、MMLU-Proは難易度を引き上げ、MMLUと比較して精度が16%から33%大幅に低下するだけでなく、様々なプロンプトの下でより高い安定性を示している。24種類の異なるプロンプトスタイルをテストした結果、モデルのスコアがプロンプトの変動に対して示す感度は、MMLUでは4-5%であったのに対し、MMLU-Proではわずか2%に減少した。さらに、Chain of Thought (CoT) 推論を利用するモデルは、直接回答する場合と比較してMMLU-Proでより良い性能を達成することがわかった。これは、元のMMLUでの結果とは対照的であり、MMLU-Proがより複雑な推論問題を含んでいることを示唆している。我々の評価は、MMLU-Proがこの分野の進歩をより良く追跡するための識別力の高いベンチマークであることを確認している。