MUG-Eval: Un Marco de Evaluación Proxy para Capacidades de Generación Multilingüe en Cualquier Idioma
MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language
May 20, 2025
Autores: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI
Resumen
Evaluar las capacidades de generación de texto de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es un desafío, especialmente para lenguajes de bajos recursos, donde los métodos de evaluación directa son escasos. Proponemos MUG-Eval, un marco novedoso que evalúa las capacidades de generación multilingüe de los LLMs transformando benchmarks existentes en tareas conversacionales y midiendo la precisión de los LLMs en dichas tareas. Diseñamos específicamente estas tareas conversacionales para requerir una comunicación efectiva en el idioma objetivo. Luego, simplemente utilizamos la tasa de éxito en la tarea como un indicador de la generación exitosa de conversaciones. Nuestro enfoque ofrece dos ventajas clave: es independiente de herramientas de PLN específicas del idioma o conjuntos de datos anotados, que son limitados para la mayoría de los idiomas, y no depende de LLMs como jueces, cuya calidad de evaluación se degrada fuera de unos pocos idiomas de altos recursos. Evaluamos 8 LLMs en 30 idiomas que abarcan categorías de altos, medios y bajos recursos, y encontramos que MUG-Eval se correlaciona fuertemente con benchmarks establecidos (r > 0.75) mientras permite comparaciones estandarizadas entre idiomas y modelos. Nuestro marco proporciona una solución robusta y eficiente en recursos para evaluar la generación multilingüe que puede extenderse a miles de idiomas.
English
Evaluating text generation capabilities of large language models (LLMs) is
challenging, particularly for low-resource languages where methods for direct
assessment are scarce. We propose MUG-Eval, a novel framework that evaluates
LLMs' multilingual generation capabilities by transforming existing benchmarks
into conversational tasks and measuring the LLMs' accuracies on those tasks. We
specifically designed these conversational tasks to require effective
communication in the target language. Then, we simply use task success rate as
a proxy of successful conversation generation. Our approach offers two key
advantages: it is independent of language-specific NLP tools or annotated
datasets, which are limited for most languages, and it does not rely on
LLMs-as-judges, whose evaluation quality degrades outside a few high-resource
languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and
low-resource categories, and we find that MUG-Eval correlates strongly with
established benchmarks (r > 0.75) while enabling standardized comparisons
across languages and models. Our framework provides a robust and
resource-efficient solution for evaluating multilingual generation that can be
extended to thousands of languages.Summary
AI-Generated Summary