От KMMLU-Redux к KMMLU-Pro: Профессиональный набор корейских тестов для оценки языковых моделей
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
Авторы: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
Аннотация
Разработка крупных языковых моделей (LLMs) требует надежных бенчмарков, которые охватывают не только академические области, но и промышленные сферы для эффективной оценки их применимости в реальных сценариях. В данной статье мы представляем два экспертных бенчмарка на корейском языке. KMMLU-Redux, реконструированный из существующего KMMLU, состоит из вопросов из экзаменов на получение национальных технических квалификаций в Корее, с устранением критических ошибок для повышения надежности. KMMLU-Pro основан на экзаменах на получение национальных профессиональных лицензий в Корее, чтобы отразить профессиональные знания в стране. Наши эксперименты демонстрируют, что эти бенчмарки всесторонне представляют промышленные знания в Корее. Мы публикуем наш набор данных в открытом доступе.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.