MMLU-Pro: более надежный и сложный многофункциональный языковой бенчмарк
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
June 3, 2024
Авторы: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI
Аннотация
В эпоху масштабных языковых моделей, таких как Massive Multitask Language Understanding (MMLU), ключевым стало использование бенчмарков для продвижения границ того, что искусственный интеллект может достичь в понимании языка и рассуждениях в различных областях. Однако по мере улучшения моделей их результаты на этих бенчмарках начали стагнировать, что делает все сложнее выявление различий в возможностях моделей. В данной статье представлен MMLU-Pro, улучшенный набор данных, разработанный для расширения в основном знаниевого бенчмарка MMLU путем интеграции более сложных вопросов, сосредоточенных на рассуждениях, и расширения выбора ответов с четырех до десяти вариантов. Кроме того, MMLU-Pro устраняет тривиальные и шумные вопросы в MMLU. Наши экспериментальные результаты показывают, что MMLU-Pro не только повышает сложность, вызывая значительное снижение точности на 16% до 33% по сравнению с MMLU, но также демонстрирует большую стабильность при изменении запросов. Проведя тестирование с 24 различными стилями запросов, чувствительность оценок модели к изменениям запросов снизилась с 4-5% в MMLU до всего 2% в MMLU-Pro. Кроме того, мы обнаружили, что модели, использующие рассуждения по принципу Chain of Thought (CoT), достигли лучших результатов на MMLU-Pro по сравнению с прямым ответом, что противоречит результатам на оригинальном MMLU и указывает на то, что MMLU-Pro включает более сложные вопросы на рассуждения. Наши оценки подтверждают, что MMLU-Pro является более дискриминирующим бенчмарком для более точного отслеживания прогресса в области.
English
In the age of large-scale language models, benchmarks like the Massive
Multitask Language Understanding (MMLU) have been pivotal in pushing the
boundaries of what AI can achieve in language comprehension and reasoning
across diverse domains. However, as models continue to improve, their
performance on these benchmarks has begun to plateau, making it increasingly
difficult to discern differences in model capabilities. This paper introduces
MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven
MMLU benchmark by integrating more challenging, reasoning-focused questions and
expanding the choice set from four to ten options. Additionally, MMLU-Pro
eliminates the trivial and noisy questions in MMLU. Our experimental results
show that MMLU-Pro not only raises the challenge, causing a significant drop in
accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability
under varying prompts. With 24 different prompt styles tested, the sensitivity
of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in
MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT)
reasoning achieved better performance on MMLU-Pro compared to direct answering,
which is in stark contrast to the findings on the original MMLU, indicating
that MMLU-Pro includes more complex reasoning questions. Our assessments
confirm that MMLU-Pro is a more discriminative benchmark to better track
progress in the field.Summary
AI-Generated Summary