KMMLU-Redux에서 KMMLU-Pro로: LLM 평가를 위한 전문 한국어 벤치마크 스위트
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
저자: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
초록
대규모 언어 모델(LLMs)의 개발은 학문적 영역뿐만 아니라 산업 분야를 포괄하는 강력한 벤치마크가 필요하며, 이를 통해 실제 현장에서의 적용 가능성을 효과적으로 평가할 수 있다. 본 논문에서는 한국의 전문가 수준 벤치마크 두 가지를 소개한다. 기존 KMMLU를 재구성한 KMMLU-Redux는 한국 국가기술자격시험에서 출제된 문제들로 구성되어 있으며, 신뢰성을 높이기 위해 치명적인 오류를 제거하였다. KMMLU-Pro는 한국 국가전문자격시험을 기반으로 하여 한국의 전문 지식을 반영하였다. 실험 결과, 이들 벤치마크가 한국의 산업 지식을 포괄적으로 대표함을 입증하였다. 본 연구에서 사용된 데이터셋은 공개적으로 제공된다.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.