MMLU-Pro: 더 강력하고 도전적인 다중 작업 언어 이해 벤치마크MMLU-Pro: A More Robust and Challenging Multi-Task Language
Understanding Benchmark
대규모 언어 모델 시대에, Massive Multitask Language Understanding(MMLU)와 같은 벤치마크는 다양한 도메인에서 AI의 언어 이해 및 추론 능력의 한계를 넓히는 데 중요한 역할을 해왔습니다. 그러나 모델이 계속해서 개선됨에 따라, 이러한 벤치마크에서의 성능이 정체되기 시작하면서 모델 간 능력 차이를 파악하기가 점점 더 어려워지고 있습니다. 본 논문에서는 주로 지식 기반인 MMLU 벤치마크를 확장하기 위해 더 도전적이고 추론 중심의 질문을 통합하고 선택지의 수를 4개에서 10개로 늘린 향상된 데이터셋인 MMLU-Pro를 소개합니다. 또한, MMLU-Pro는 MMLU의 사소하고 노이즈가 많은 질문들을 제거했습니다. 우리의 실험 결과는 MMLU-Pro가 MMLU에 비해 정확도를 16%에서 33%까지 크게 떨어뜨려 도전도를 높이는 동시에 다양한 프롬프트 하에서 더 큰 안정성을 보여준다는 것을 입증합니다. 24가지의 서로 다른 프롬프트 스타일을 테스트한 결과, 모델 점수의 프롬프트 변동에 대한 민감도가 MMLU에서의 4-5%에서 MMLU-Pro에서는 단 2%로 감소했습니다. 또한, Chain of Thought(CoT) 추론을 활용한 모델들이 직접 답변하는 방식에 비해 MMLU-Pro에서 더 나은 성능을 보였는데, 이는 원래 MMLU에서의 결과와는 대조적이며, MMLU-Pro가 더 복잡한 추론 질문을 포함하고 있음을 시사합니다. 우리의 평가는 MMLU-Pro가 해당 분야의 진전을 더 잘 추적할 수 있는 더 차별화된 벤치마크임을 확인시켜 줍니다.