De KMMLU-Redux a KMMLU-Pro: Un conjunto de pruebas profesional en coreano para la evaluación de modelos de lenguaje grandes
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
Autores: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
Resumen
El desarrollo de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) requiere puntos de referencia robustos que abarquen no solo dominios académicos, sino también campos industriales para evaluar eficazmente su aplicabilidad en escenarios del mundo real. En este artículo, presentamos dos puntos de referencia de nivel experto en coreano. KMMLU-Redux, reconstruido a partir del KMMLU existente, consta de preguntas de los exámenes de Calificación Técnica Nacional de Corea, con errores críticos eliminados para mejorar la confiabilidad. KMMLU-Pro se basa en los exámenes de Licencia Profesional Nacional de Corea para reflejar el conocimiento profesional en el país. Nuestros experimentos demuestran que estos puntos de referencia representan de manera integral el conocimiento industrial en Corea. Hacemos público nuestro conjunto de datos.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.