Evaluación de IA Generativa Multimodal con Estándares Educativos Coreanos
Evaluating Multimodal Generative AI with Korean Educational Standards
February 21, 2025
Autores: Sanghee Park, Geewook Kim
cs.AI
Resumen
Este artículo presenta el Korean National Educational Test Benchmark (KoNET), un nuevo punto de referencia diseñado para evaluar sistemas de IA generativa multimodal utilizando exámenes educativos nacionales coreanos. KoNET comprende cuatro exámenes: el Korean Elementary General Educational Development Test (KoEGED), el Middle (KoMGED), el High (KoHGED) y el College Scholastic Ability Test (KoCSAT). Estos exámenes son reconocidos por sus estándares rigurosos y preguntas diversas, lo que facilita un análisis exhaustivo del rendimiento de la IA en diferentes niveles educativos. Al centrarse en el coreano, KoNET ofrece información sobre el desempeño de los modelos en idiomas menos explorados. Evaluamos una variedad de modelos -de código abierto, de acceso abierto y APIs cerradas- examinando dificultades, diversidad de temas y tasas de error humano. El código y el constructor del conjunto de datos estarán completamente disponibles como código abierto en https://github.com/naver-ai/KoNET.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a
new benchmark designed to evaluate Multimodal Generative AI Systems using
Korean national educational tests. KoNET comprises four exams: the Korean
Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High
(KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are
renowned for their rigorous standards and diverse questions, facilitating a
comprehensive analysis of AI performance across different educational levels.
By focusing on Korean, KoNET provides insights into model performance in
less-explored languages. We assess a range of models - open-source,
open-access, and closed APIs - by examining difficulties, subject diversity,
and human error rates. The code and dataset builder will be made fully
open-sourced at https://github.com/naver-ai/KoNET.Summary
AI-Generated Summary