ChatPaper.aiChatPaper

De KMMLU-Redux à KMMLU-Pro : Une suite de référence professionnelle coréenne pour l'évaluation des modèles de langage de grande taille

From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation

July 11, 2025
papers.authors: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI

papers.abstract

Le développement des modèles de langage à grande échelle (LLMs) nécessite des benchmarks robustes qui englobent non seulement les domaines académiques, mais aussi les secteurs industriels, afin d'évaluer efficacement leur applicabilité dans des scénarios réels. Dans cet article, nous présentons deux benchmarks de niveau expert en coréen. KMMLU-Redux, reconstruit à partir du KMMLU existant, est composé de questions issues des examens de qualification technique nationale coréenne, avec des erreurs critiques supprimées pour améliorer la fiabilité. KMMLU-Pro est basé sur les examens de licence professionnelle nationale coréenne afin de refléter les connaissances professionnelles en Corée. Nos expériences démontrent que ces benchmarks représentent de manière exhaustive les connaissances industrielles en Corée. Nous rendons notre ensemble de données publiquement disponible.
English
The development of Large Language Models (LLMs) requires robust benchmarks that encompass not only academic domains but also industrial fields to effectively evaluate their applicability in real-world scenarios. In this paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux, reconstructed from the existing KMMLU, consists of questions from the Korean National Technical Qualification exams, with critical errors removed to enhance reliability. KMMLU-Pro is based on Korean National Professional Licensure exams to reflect professional knowledge in Korea. Our experiments demonstrate that these benchmarks comprehensively represent industrial knowledge in Korea. We release our dataset publicly available.
PDF161July 15, 2025