MMLU-Pro: более надежный и сложный многофункциональный языковой бенчмаркMMLU-Pro: A More Robust and Challenging Multi-Task Language
Understanding Benchmark
В эпоху масштабных языковых моделей, таких как Massive Multitask Language Understanding (MMLU), ключевым стало использование бенчмарков для продвижения границ того, что искусственный интеллект может достичь в понимании языка и рассуждениях в различных областях. Однако по мере улучшения моделей их результаты на этих бенчмарках начали стагнировать, что делает все сложнее выявление различий в возможностях моделей. В данной статье представлен MMLU-Pro, улучшенный набор данных, разработанный для расширения в основном знаниевого бенчмарка MMLU путем интеграции более сложных вопросов, сосредоточенных на рассуждениях, и расширения выбора ответов с четырех до десяти вариантов. Кроме того, MMLU-Pro устраняет тривиальные и шумные вопросы в MMLU. Наши экспериментальные результаты показывают, что MMLU-Pro не только повышает сложность, вызывая значительное снижение точности на 16% до 33% по сравнению с MMLU, но также демонстрирует большую стабильность при изменении запросов. Проведя тестирование с 24 различными стилями запросов, чувствительность оценок модели к изменениям запросов снизилась с 4-5% в MMLU до всего 2% в MMLU-Pro. Кроме того, мы обнаружили, что модели, использующие рассуждения по принципу Chain of Thought (CoT), достигли лучших результатов на MMLU-Pro по сравнению с прямым ответом, что противоречит результатам на оригинальном MMLU и указывает на то, что MMLU-Pro включает более сложные вопросы на рассуждения. Наши оценки подтверждают, что MMLU-Pro является более дискриминирующим бенчмарком для более точного отслеживания прогресса в области.