Évaluation de l'IA générative multimodale selon les normes éducatives coréennes
Evaluating Multimodal Generative AI with Korean Educational Standards
February 21, 2025
Auteurs: Sanghee Park, Geewook Kim
cs.AI
Résumé
Cet article présente le Korean National Educational Test Benchmark (KoNET), un nouveau benchmark conçu pour évaluer les systèmes d'IA générative multimodale à l'aide des tests éducatifs nationaux coréens. KoNET comprend quatre examens : le Korean Elementary General Educational Development Test (KoEGED), le Middle (KoMGED), le High (KoHGED) et le College Scholastic Ability Test (KoCSAT). Ces examens sont réputés pour leurs normes rigoureuses et leurs questions diversifiées, permettant une analyse approfondie des performances de l'IA à différents niveaux éducatifs. En se concentrant sur le coréen, KoNET offre des insights sur les performances des modèles dans des langues moins explorées. Nous évaluons une gamme de modèles - open-source, en accès libre et APIs fermées - en examinant les difficultés, la diversité des sujets et les taux d'erreur humaine. Le code et le constructeur de jeux de données seront entièrement open-sourcés à l'adresse https://github.com/naver-ai/KoNET.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a
new benchmark designed to evaluate Multimodal Generative AI Systems using
Korean national educational tests. KoNET comprises four exams: the Korean
Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High
(KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are
renowned for their rigorous standards and diverse questions, facilitating a
comprehensive analysis of AI performance across different educational levels.
By focusing on Korean, KoNET provides insights into model performance in
less-explored languages. We assess a range of models - open-source,
open-access, and closed APIs - by examining difficulties, subject diversity,
and human error rates. The code and dataset builder will be made fully
open-sourced at https://github.com/naver-ai/KoNET.Summary
AI-Generated Summary