Оценка мультимодального генеративного ИИ в соответствии с корейскими образовательными стандартами
Evaluating Multimodal Generative AI with Korean Educational Standards
February 21, 2025
Авторы: Sanghee Park, Geewook Kim
cs.AI
Аннотация
В данной статье представлен корейский национальный образовательный тестовый бенчмарк (KoNET), новый эталонный набор данных, разработанный для оценки мультимодальных генеративных систем искусственного интеллекта с использованием корейских национальных образовательных тестов. KoNET включает четыре экзамена: общий тест начального образования (KoEGED), среднего (KoMGED), старшего (KoHGED) и вступительный экзамен в колледж (KoCSAT). Эти экзамены известны своими строгими стандартами и разнообразием вопросов, что позволяет провести всесторонний анализ производительности ИИ на различных уровнях образования. Сосредоточившись на корейском языке, KoNET предоставляет ценные данные о работе моделей на менее изученных языках. Мы оцениваем ряд моделей — с открытым исходным кодом, открытым доступом и закрытыми API — анализируя сложность, разнообразие предметов и частоту ошибок, характерных для человека. Код и инструмент для создания набора данных будут полностью открыты и доступны по адресу https://github.com/naver-ai/KoNET.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a
new benchmark designed to evaluate Multimodal Generative AI Systems using
Korean national educational tests. KoNET comprises four exams: the Korean
Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High
(KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are
renowned for their rigorous standards and diverse questions, facilitating a
comprehensive analysis of AI performance across different educational levels.
By focusing on Korean, KoNET provides insights into model performance in
less-explored languages. We assess a range of models - open-source,
open-access, and closed APIs - by examining difficulties, subject diversity,
and human error rates. The code and dataset builder will be made fully
open-sourced at https://github.com/naver-ai/KoNET.Summary
AI-Generated Summary