Avaliação de Inteligência Artificial Generativa Multimodal com Padrões Educacionais Coreanos
Evaluating Multimodal Generative AI with Korean Educational Standards
February 21, 2025
Autores: Sanghee Park, Geewook Kim
cs.AI
Resumo
Este artigo apresenta o Korean National Educational Test Benchmark (KoNET), um novo benchmark projetado para avaliar Sistemas de IA Generativa Multimodal usando testes educacionais nacionais coreanos. O KoNET é composto por quatro exames: o Teste de Desenvolvimento Educacional Geral Elementar Coreano (KoEGED), Médio (KoMGED), Superior (KoHGED) e Teste de Habilidade Escolástica Universitária Coreana (KoCSAT). Esses exames são conhecidos por seus padrões rigorosos e perguntas diversas, facilitando uma análise abrangente do desempenho da IA em diferentes níveis educacionais. Ao focar no coreano, o KoNET fornece insights sobre o desempenho do modelo em idiomas menos explorados. Avaliamos uma variedade de modelos - de código aberto, de acesso aberto e APIs fechadas - examinando dificuldades, diversidade de assuntos e taxas de erro humano. O código e o construtor de conjunto de dados serão totalmente disponibilizados em código aberto em https://github.com/naver-ai/KoNET.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a
new benchmark designed to evaluate Multimodal Generative AI Systems using
Korean national educational tests. KoNET comprises four exams: the Korean
Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High
(KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are
renowned for their rigorous standards and diverse questions, facilitating a
comprehensive analysis of AI performance across different educational levels.
By focusing on Korean, KoNET provides insights into model performance in
less-explored languages. We assess a range of models - open-source,
open-access, and closed APIs - by examining difficulties, subject diversity,
and human error rates. The code and dataset builder will be made fully
open-sourced at https://github.com/naver-ai/KoNET.Summary
AI-Generated Summary