MUG-Eval: Um Framework de Avaliação Proxy para Capacidades de Geração Multilíngue em Qualquer Idioma
MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language
May 20, 2025
Autores: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI
Resumo
A avaliação das capacidades de geração de texto de modelos de linguagem de grande escala (LLMs) é desafiadora, especialmente para idiomas de baixo recurso, onde métodos de avaliação direta são escassos. Propomos o MUG-Eval, uma estrutura inovadora que avalia as capacidades de geração multilíngue dos LLMs transformando benchmarks existentes em tarefas conversacionais e medindo a precisão dos LLMs nessas tarefas. Projetamos especificamente essas tarefas conversacionais para exigir comunicação eficaz no idioma alvo. Em seguida, utilizamos simplesmente a taxa de sucesso da tarefa como um indicador de geração bem-sucedida de conversas. Nossa abordagem oferece duas vantagens principais: ela é independente de ferramentas de NLP específicas para cada idioma ou conjuntos de dados anotados, que são limitados para a maioria dos idiomas, e não depende de LLMs como juízes, cuja qualidade de avaliação se degrada fora de alguns idiomas de alto recurso. Avaliamos 8 LLMs em 30 idiomas abrangendo categorias de alto, médio e baixo recurso, e descobrimos que o MUG-Eval correlaciona-se fortemente com benchmarks estabelecidos (r > 0,75), ao mesmo tempo que permite comparações padronizadas entre idiomas e modelos. Nossa estrutura fornece uma solução robusta e eficiente em termos de recursos para avaliar a geração multilíngue, que pode ser estendida a milhares de idiomas.
English
Evaluating text generation capabilities of large language models (LLMs) is
challenging, particularly for low-resource languages where methods for direct
assessment are scarce. We propose MUG-Eval, a novel framework that evaluates
LLMs' multilingual generation capabilities by transforming existing benchmarks
into conversational tasks and measuring the LLMs' accuracies on those tasks. We
specifically designed these conversational tasks to require effective
communication in the target language. Then, we simply use task success rate as
a proxy of successful conversation generation. Our approach offers two key
advantages: it is independent of language-specific NLP tools or annotated
datasets, which are limited for most languages, and it does not rely on
LLMs-as-judges, whose evaluation quality degrades outside a few high-resource
languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and
low-resource categories, and we find that MUG-Eval correlates strongly with
established benchmarks (r > 0.75) while enabling standardized comparisons
across languages and models. Our framework provides a robust and
resource-efficient solution for evaluating multilingual generation that can be
extended to thousands of languages.