MMLU-Pro:一個更穩健且具挑戰性的多任務語言理解基準測試MMLU-Pro: A More Robust and Challenging Multi-Task Language
Understanding Benchmark
在大型語言模型時代,像是大規模多任務語言理解(MMLU)這樣的基準已成為推動人工智慧在語言理解和推理跨不同領域取得的成就的關鍵。然而,隨著模型持續改進,它們在這些基準上的表現已經開始趨於平緩,使得越來越難以辨別模型能力的差異。本文介紹了MMLU-Pro,這是一個增強的數據集,旨在擴展主要基於知識的MMLU基準,通過整合更具挑戰性、著重推理的問題,並將選擇集從四個擴展到十個選項。此外,MMLU-Pro消除了MMLU中的瑣碎和噪音問題。我們的實驗結果顯示,MMLU-Pro不僅提高了挑戰,使準確率比MMLU下降了16%至33%,還表現出在不同提示下更大的穩定性。在測試了24種不同提示風格後,模型分數對提示變化的敏感度從MMLU的4-5%降至MMLU-Pro的僅為2%。此外,我們發現,利用“思維鏈”(CoT)推理的模型在MMLU-Pro上表現優於直接回答,這與原始MMLU的研究結果形成鮮明對比,表明MMLU-Pro包含了更複雜的推理問題。我們的評估證實,MMLU-Pro是一個更具區分性的基準,可以更好地追蹤該領域的進展。