ChatPaper.aiChatPaper

MMLU-Pro: Um Benchmark de Compreensão de Linguagem Multitarefa Mais Robust e Desafiador

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
Autores: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

Resumo

Na era dos modelos de linguagem em grande escala, benchmarks como o Massive Multitask Language Understanding (MMLU) têm sido fundamentais para expandir os limites do que a IA pode alcançar em termos de compreensão e raciocínio linguístico em diversos domínios. No entanto, à medida que os modelos continuam a melhorar, seu desempenho nesses benchmarks começou a estagnar, tornando cada vez mais difícil discernir diferenças nas capacidades dos modelos. Este artigo apresenta o MMLU-Pro, um conjunto de dados aprimorado projetado para estender o benchmark MMLU, que é principalmente baseado em conhecimento, ao integrar questões mais desafiadoras e focadas em raciocínio e expandir o conjunto de opções de quatro para dez alternativas. Além disso, o MMLU-Pro elimina as questões triviais e ruidosas presentes no MMLU. Nossos resultados experimentais mostram que o MMLU-Pro não apenas eleva o desafio, causando uma queda significativa na precisão de 16% a 33% em comparação com o MMLU, mas também demonstra maior estabilidade sob diferentes prompts. Com 24 estilos de prompt testados, a sensibilidade das pontuações dos modelos às variações de prompt diminuiu de 4-5% no MMLU para apenas 2% no MMLU-Pro. Além disso, descobrimos que os modelos que utilizam o raciocínio em cadeia (Chain of Thought - CoT) obtiveram um desempenho melhor no MMLU-Pro em comparação com respostas diretas, o que contrasta fortemente com os resultados no MMLU original, indicando que o MMLU-Pro inclui questões de raciocínio mais complexas. Nossas avaliações confirmam que o MMLU-Pro é um benchmark mais discriminativo para acompanhar melhor o progresso na área.
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
PDF503December 12, 2024