MMLU-Pro:一个更健壮且具挑战性的多任务语言理解基准测试MMLU-Pro: A More Robust and Challenging Multi-Task Language
Understanding Benchmark
在大规模语言模型时代,像大规模多任务语言理解(MMLU)这样的基准对推动人工智能在语言理解和推理方面在不同领域取得的成就起到了关键作用。然而,随着模型的不断改进,它们在这些基准上的表现已经开始趋于平稳,这使得越来越难以区分模型能力上的差异。本文介绍了MMLU-Pro,这是一个增强型数据集,旨在通过整合更具挑战性、注重推理的问题,并将选项选择从四个扩展到十个,来扩展主要基于知识的MMLU基准。此外,MMLU-Pro消除了MMLU中的琐碎和嘈杂问题。我们的实验结果表明,MMLU-Pro不仅提高了挑战性,使准确率较MMLU下降了16%至33%,而且在不同提示下表现出更大的稳定性。在测试了24种不同提示风格后,模型得分对提示变化的敏感性从MMLU的4-5%降至MMLU-Pro的仅为2%。此外,我们发现,利用“思维链”(CoT)推理的模型在MMLU-Pro上的表现优于直接回答,这与原始MMLU的研究结果形成鲜明对比,表明MMLU-Pro包含了更复杂的推理问题。我们的评估证实,MMLU-Pro是一个更具区分性的基准,可更好地跟踪该领域的进展。