Van KMMLU-Redux naar KMMLU-Pro: Een professionele Koreaanse benchmark suite voor evaluatie van grote taalmodellen
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
Auteurs: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
Samenvatting
De ontwikkeling van Large Language Models (LLMs) vereist robuuste benchmarks die niet alleen academische domeinen omvatten, maar ook industriële velden om hun toepasbaarheid in realistische scenario's effectief te evalueren. In dit artikel introduceren we twee Koreaanse expertniveau-benchmarks. KMMLU-Redux, gereconstrueerd vanuit de bestaande KMMLU, bestaat uit vragen uit de Koreaanse Nationale Technische Kwalificatie-examens, waarbij kritieke fouten zijn verwijderd om de betrouwbaarheid te vergroten. KMMLU-Pro is gebaseerd op Koreaanse Nationale Professionele Licentie-examens om professionele kennis in Korea te weerspiegelen. Onze experimenten tonen aan dat deze benchmarks de industriële kennis in Korea uitgebreid vertegenwoordigen. We stellen onze dataset publiekelijk beschikbaar.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.