Da KMMLU-Redux a KMMLU-Pro: Una Suite di Benchmark Professionale Coreana per la Valutazione dei Modelli Linguistici di Grande Dimensione
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
Autori: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
Abstract
Lo sviluppo dei Large Language Model (LLM) richiede benchmark robusti che comprendano non solo domini accademici ma anche campi industriali per valutare efficacemente la loro applicabilità in scenari reali. In questo articolo, introduciamo due benchmark di livello esperto per il contesto coreano. KMMLU-Redux, ricostruito a partire dall'esistente KMMLU, consiste in domande tratte dagli esami per le Qualifiche Tecniche Nazionali Coreane, con la rimozione di errori critici per migliorare l'affidabilità. KMMLU-Pro si basa invece sugli esami per le Licenze Professionali Nazionali Coreane, per riflettere la conoscenza professionale in Corea. I nostri esperimenti dimostrano che questi benchmark rappresentano in modo completo la conoscenza industriale in Corea. Rilasciamo pubblicamente il nostro dataset.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.