ChatPaper.aiChatPaper

Avaliação de Inteligência Artificial Generativa Multimodal com Padrões Educacionais Coreanos

Evaluating Multimodal Generative AI with Korean Educational Standards

February 21, 2025
Autores: Sanghee Park, Geewook Kim
cs.AI

Resumo

Este artigo apresenta o Korean National Educational Test Benchmark (KoNET), um novo benchmark projetado para avaliar Sistemas de IA Generativa Multimodal usando testes educacionais nacionais coreanos. O KoNET é composto por quatro exames: o Teste de Desenvolvimento Educacional Geral Elementar Coreano (KoEGED), Médio (KoMGED), Superior (KoHGED) e Teste de Habilidade Escolástica Universitária Coreana (KoCSAT). Esses exames são conhecidos por seus padrões rigorosos e perguntas diversas, facilitando uma análise abrangente do desempenho da IA em diferentes níveis educacionais. Ao focar no coreano, o KoNET fornece insights sobre o desempenho do modelo em idiomas menos explorados. Avaliamos uma variedade de modelos - de código aberto, de acesso aberto e APIs fechadas - examinando dificuldades, diversidade de assuntos e taxas de erro humano. O código e o construtor de conjunto de dados serão totalmente disponibilizados em código aberto em https://github.com/naver-ai/KoNET.
English
This paper presents the Korean National Educational Test Benchmark (KoNET), a new benchmark designed to evaluate Multimodal Generative AI Systems using Korean national educational tests. KoNET comprises four exams: the Korean Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High (KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are renowned for their rigorous standards and diverse questions, facilitating a comprehensive analysis of AI performance across different educational levels. By focusing on Korean, KoNET provides insights into model performance in less-explored languages. We assess a range of models - open-source, open-access, and closed APIs - by examining difficulties, subject diversity, and human error rates. The code and dataset builder will be made fully open-sourced at https://github.com/naver-ai/KoNET.

Summary

AI-Generated Summary

PDF103February 24, 2025