GlotEval: Un conjunto de pruebas para la evaluación masivamente multilingüe de modelos de lenguaje de gran escala
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models
April 5, 2025
Autores: Hengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están avanzando a un ritmo sin precedentes a nivel global, con regiones que adoptan cada vez más estos modelos para aplicaciones en su idioma principal. La evaluación de estos modelos en diversos entornos lingüísticos, especialmente en lenguas de bajos recursos, se ha convertido en un desafío importante tanto para la academia como para la industria. Los marcos de evaluación existentes se centran de manera desproporcionada en el inglés y en un puñado de lenguas de altos recursos, pasando por alto el rendimiento realista de los LLMs en escenarios multilingües y de bajos recursos. Para abordar esta brecha, presentamos GlotEval, un marco ligero diseñado para la evaluación masivamente multilingüe. Compatible con siete tareas clave (traducción automática, clasificación de texto, resumen, generación abierta, comprensión lectora, etiquetado de secuencias y evaluación intrínseca), que abarcan desde decenas hasta cientos de idiomas, GlotEval destaca la evaluación comparativa multilingüe consistente, plantillas de instrucciones específicas por idioma y traducción automática no centrada en el inglés. Esto permite un diagnóstico preciso de las fortalezas y debilidades de los modelos en diversos contextos lingüísticos. Un estudio de caso sobre traducción multilingüe demuestra la aplicabilidad de GlotEval para evaluaciones multilingües y específicas por idioma.
English
Large language models (LLMs) are advancing at an unprecedented pace globally,
with regions increasingly adopting these models for applications in their
primary language. Evaluation of these models in diverse linguistic
environments, especially in low-resource languages, has become a major
challenge for academia and industry. Existing evaluation frameworks are
disproportionately focused on English and a handful of high-resource languages,
thereby overlooking the realistic performance of LLMs in multilingual and
lower-resource scenarios. To address this gap, we introduce GlotEval, a
lightweight framework designed for massively multilingual evaluation.
Supporting seven key tasks (machine translation, text classification,
summarization, open-ended generation, reading comprehension, sequence labeling,
and intrinsic evaluation), spanning over dozens to hundreds of languages,
GlotEval highlights consistent multilingual benchmarking, language-specific
prompt templates, and non-English-centric machine translation. This enables a
precise diagnosis of model strengths and weaknesses in diverse linguistic
contexts. A multilingual translation case study demonstrates GlotEval's
applicability for multilingual and language-specific evaluations.Summary
AI-Generated Summary