De KMMLU-Redux para KMMLU-Pro: Um Conjunto de Benchmarks Profissionais em Coreano para Avaliação de Modelos de Linguagem de Grande Escala
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
Autores: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
Resumo
O desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) requer benchmarks robustos que abrangem não apenas domínios acadêmicos, mas também campos industriais para avaliar efetivamente sua aplicabilidade em cenários do mundo real. Neste artigo, apresentamos dois benchmarks de nível especializado em coreano. O KMMLU-Redux, reconstruído a partir do KMMLU existente, consiste em questões dos exames de Qualificação Técnica Nacional da Coreia, com erros críticos removidos para aumentar a confiabilidade. O KMMLU-Pro é baseado nos exames de Licenciamento Profissional Nacional da Coreia para refletir o conhecimento profissional no país. Nossos experimentos demonstram que esses benchmarks representam de forma abrangente o conhecimento industrial na Coreia. Disponibilizamos nosso conjunto de dados publicamente.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.