De KMMLU-Redux para KMMLU-Pro: Um Conjunto de Benchmarks Profissionais em Coreano para Avaliação de Modelos de Linguagem de Grande Escala

Resumo

O desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) requer benchmarks robustos que abrangem não apenas domínios acadêmicos, mas também campos industriais para avaliar efetivamente sua aplicabilidade em cenários do mundo real. Neste artigo, apresentamos dois benchmarks de nível especializado em coreano. O KMMLU-Redux, reconstruído a partir do KMMLU existente, consiste em questões dos exames de Qualificação Técnica Nacional da Coreia, com erros críticos removidos para aumentar a confiabilidade. O KMMLU-Pro é baseado nos exames de Licenciamento Profissional Nacional da Coreia para refletir o conhecimento profissional no país. Nossos experimentos demonstram que esses benchmarks representam de forma abrangente o conhecimento industrial na Coreia. Disponibilizamos nosso conjunto de dados publicamente.

English

The development of Large Language Models (LLMs) requires robust benchmarks that encompass not only academic domains but also industrial fields to effectively evaluate their applicability in real-world scenarios. In this paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux, reconstructed from the existing KMMLU, consists of questions from the Korean National Technical Qualification exams, with critical errors removed to enhance reliability. KMMLU-Pro is based on Korean National Professional Licensure exams to reflect professional knowledge in Korea. Our experiments demonstrate that these benchmarks comprehensively represent industrial knowledge in Korea. We release our dataset publicly available.

De KMMLU-Redux para KMMLU-Pro: Um Conjunto de Benchmarks Profissionais em Coreano para Avaliação de Modelos de Linguagem de Grande Escala

From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation

Resumo

Support