Bewertung multimodaler generativer KI nach koreanischen Bildungsstandards
Evaluating Multimodal Generative AI with Korean Educational Standards
February 21, 2025
Autoren: Sanghee Park, Geewook Kim
cs.AI
Zusammenfassung
Dieses Papier stellt den Korean National Educational Test Benchmark (KoNET) vor, einen neuen Benchmark, der entwickelt wurde, um Multimodale Generative KI-Systeme anhand koreanischer nationaler Bildungstests zu evaluieren. KoNET umfasst vier Prüfungen: den Korean Elementary General Educational Development Test (KoEGED), den Middle (KoMGED), den High (KoHGED) und den College Scholastic Ability Test (KoCSAT). Diese Prüfungen sind für ihre strengen Standards und vielfältigen Fragen bekannt und ermöglichen eine umfassende Analyse der KI-Leistung über verschiedene Bildungsstufen hinweg. Durch den Fokus auf die koreanische Sprache bietet KoNET Einblicke in die Modellleistung in weniger erforschten Sprachen. Wir bewerten eine Reihe von Modellen – Open-Source, Open-Access und geschlossene APIs – indem wir Schwierigkeitsgrade, Fachvielfalt und menschliche Fehlerraten untersuchen. Der Code und der Datensatz-Builder werden vollständig Open-Source unter https://github.com/naver-ai/KoNET verfügbar gemacht.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a
new benchmark designed to evaluate Multimodal Generative AI Systems using
Korean national educational tests. KoNET comprises four exams: the Korean
Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High
(KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are
renowned for their rigorous standards and diverse questions, facilitating a
comprehensive analysis of AI performance across different educational levels.
By focusing on Korean, KoNET provides insights into model performance in
less-explored languages. We assess a range of models - open-source,
open-access, and closed APIs - by examining difficulties, subject diversity,
and human error rates. The code and dataset builder will be made fully
open-sourced at https://github.com/naver-ai/KoNET.Summary
AI-Generated Summary