Evaluatie van Multimodale Generatieve AI volgens Koreaanse Onderwijsnormen
Evaluating Multimodal Generative AI with Korean Educational Standards
February 21, 2025
Auteurs: Sanghee Park, Geewook Kim
cs.AI
Samenvatting
Dit artikel introduceert de Korean National Educational Test Benchmark (KoNET), een nieuwe benchmark die is ontworpen om Multimodale Generatieve AI-systemen te evalueren aan de hand van Koreaanse nationale onderwijsexamens. KoNET bestaat uit vier examens: de Korean Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High (KoHGED), en de College Scholastic Ability Test (KoCSAT). Deze examens staan bekend om hun strenge normen en diverse vraagstellingen, wat een uitgebreide analyse van AI-prestaties op verschillende onderwijsniveaus mogelijk maakt. Door zich te richten op het Koreaans, biedt KoNET inzichten in de prestaties van modellen in minder onderzochte talen. We evalueren een reeks modellen - open-source, open-access en gesloten API's - door moeilijkheidsgraden, vakdiversiteit en menselijke foutpercentages te onderzoeken. De code en datasetbuilder zullen volledig open-source worden gemaakt op https://github.com/naver-ai/KoNET.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a
new benchmark designed to evaluate Multimodal Generative AI Systems using
Korean national educational tests. KoNET comprises four exams: the Korean
Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High
(KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are
renowned for their rigorous standards and diverse questions, facilitating a
comprehensive analysis of AI performance across different educational levels.
By focusing on Korean, KoNET provides insights into model performance in
less-explored languages. We assess a range of models - open-source,
open-access, and closed APIs - by examining difficulties, subject diversity,
and human error rates. The code and dataset builder will be made fully
open-sourced at https://github.com/naver-ai/KoNET.