Von KMMLU-Redux zu KMMLU-Pro: Ein professionelles koreanisches Benchmark-Suite zur Bewertung von LLMs
From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
July 11, 2025
papers.authors: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
cs.AI
papers.abstract
Die Entwicklung von Large Language Models (LLMs) erfordert robuste Benchmarks, die nicht nur akademische Bereiche, sondern auch industrielle Felder abdecken, um ihre Anwendbarkeit in realen Szenarien effektiv zu bewerten. In diesem Artikel stellen wir zwei koreanische Benchmarks auf Expertenniveau vor. KMMLU-Redux, das aus dem bestehenden KMMLU rekonstruiert wurde, besteht aus Fragen der koreanischen Nationalen Technischen Qualifikationsprüfungen, bei denen kritische Fehler entfernt wurden, um die Zuverlässigkeit zu erhöhen. KMMLU-Pro basiert auf den koreanischen Nationalen Berufszulassungsprüfungen, um Fachwissen in Korea widerzuspiegeln. Unsere Experimente zeigen, dass diese Benchmarks das industrielle Wissen in Korea umfassend repräsentieren. Wir stellen unser Dataset öffentlich zur Verfügung.
English
The development of Large Language Models (LLMs) requires robust benchmarks
that encompass not only academic domains but also industrial fields to
effectively evaluate their applicability in real-world scenarios. In this
paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux,
reconstructed from the existing KMMLU, consists of questions from the Korean
National Technical Qualification exams, with critical errors removed to enhance
reliability. KMMLU-Pro is based on Korean National Professional Licensure exams
to reflect professional knowledge in Korea. Our experiments demonstrate that
these benchmarks comprehensively represent industrial knowledge in Korea. We
release our dataset publicly available.