ChatPaper.aiChatPaper

MMLU-Pro: 더 강력하고 도전적인 다중 작업 언어 이해 벤치마크

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
저자: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

초록

대규모 언어 모델 시대에, Massive Multitask Language Understanding(MMLU)와 같은 벤치마크는 다양한 도메인에서 AI의 언어 이해 및 추론 능력의 한계를 넓히는 데 중요한 역할을 해왔습니다. 그러나 모델이 계속해서 개선됨에 따라, 이러한 벤치마크에서의 성능이 정체되기 시작하면서 모델 간 능력 차이를 파악하기가 점점 더 어려워지고 있습니다. 본 논문에서는 주로 지식 기반인 MMLU 벤치마크를 확장하기 위해 더 도전적이고 추론 중심의 질문을 통합하고 선택지의 수를 4개에서 10개로 늘린 향상된 데이터셋인 MMLU-Pro를 소개합니다. 또한, MMLU-Pro는 MMLU의 사소하고 노이즈가 많은 질문들을 제거했습니다. 우리의 실험 결과는 MMLU-Pro가 MMLU에 비해 정확도를 16%에서 33%까지 크게 떨어뜨려 도전도를 높이는 동시에 다양한 프롬프트 하에서 더 큰 안정성을 보여준다는 것을 입증합니다. 24가지의 서로 다른 프롬프트 스타일을 테스트한 결과, 모델 점수의 프롬프트 변동에 대한 민감도가 MMLU에서의 4-5%에서 MMLU-Pro에서는 단 2%로 감소했습니다. 또한, Chain of Thought(CoT) 추론을 활용한 모델들이 직접 답변하는 방식에 비해 MMLU-Pro에서 더 나은 성능을 보였는데, 이는 원래 MMLU에서의 결과와는 대조적이며, MMLU-Pro가 더 복잡한 추론 질문을 포함하고 있음을 시사합니다. 우리의 평가는 MMLU-Pro가 해당 분야의 진전을 더 잘 추적할 수 있는 더 차별화된 벤치마크임을 확인시켜 줍니다.
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.

Summary

AI-Generated Summary

PDF473December 12, 2024