KMMLU-ReduxからKMMLU-Proへ:大規模言語モデル評価のためのプロフェッショナル韓国語ベンチマークスイート
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
著者: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
要旨
大規模言語モデル(LLMs)の開発には、学術分野だけでなく産業分野も包含する堅牢なベンチマークが必要であり、現実世界のシナリオにおける適用性を効果的に評価することが求められます。本論文では、韓国の専門家レベルのベンチマークを2つ紹介します。既存のKMMLUを再構築したKMMLU-Reduxは、韓国の国家技術資格試験からの問題で構成され、信頼性を高めるために重大な誤りが除去されています。KMMLU-Proは、韓国の国家専門資格試験に基づいており、韓国における専門知識を反映しています。我々の実験は、これらのベンチマークが韓国の産業知識を包括的に代表していることを示しています。我々はこのデータセットを公開しています。
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.