ChatPaper.aiChatPaper

한국 교육 기준에 따른 다중모달 생성형 AI 평가

Evaluating Multimodal Generative AI with Korean Educational Standards

February 21, 2025
저자: Sanghee Park, Geewook Kim
cs.AI

초록

본 논문은 한국의 국가 교육 시험을 활용하여 멀티모달 생성형 AI 시스템을 평가하기 위해 설계된 새로운 벤치마크인 KoNET(Korean National Educational Test Benchmark)을 소개한다. KoNET은 한국 초등학교 졸업 학력 검정고시(KoEGED), 중학교 졸업 학력 검정고시(KoMGED), 고등학교 졸업 학력 검정고시(KoHGED), 그리고 대학수학능력시험(KoCSAT) 등 네 가지 시험으로 구성된다. 이러한 시험들은 엄격한 기준과 다양한 문제 유형으로 유명하며, 이를 통해 다양한 교육 수준에서 AI의 성능을 포괄적으로 분석할 수 있다. 한국어에 초점을 맞춘 KoNET은 상대적으로 덜 탐구된 언어에서의 모델 성능에 대한 통찰을 제공한다. 우리는 오픈소스, 오픈 액세스, 그리고 클로즈드 API 모델들을 대상으로 난이도, 과목 다양성, 그리고 인간의 오류율 등을 검토하여 평가를 진행한다. 코드와 데이터셋 빌더는 https://github.com/naver-ai/KoNET에서 완전히 오픈소스로 공개될 예정이다.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a new benchmark designed to evaluate Multimodal Generative AI Systems using Korean national educational tests. KoNET comprises four exams: the Korean Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High (KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are renowned for their rigorous standards and diverse questions, facilitating a comprehensive analysis of AI performance across different educational levels. By focusing on Korean, KoNET provides insights into model performance in less-explored languages. We assess a range of models - open-source, open-access, and closed APIs - by examining difficulties, subject diversity, and human error rates. The code and dataset builder will be made fully open-sourced at https://github.com/naver-ai/KoNET.

Summary

AI-Generated Summary

PDF103February 24, 2025