ChatPaper.aiChatPaper

GlotEval : Une suite de tests pour l'évaluation multilingue à grande échelle des modèles de langage de grande taille

GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models

April 5, 2025
Auteurs: Hengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann
cs.AI

Résumé

Les grands modèles de langage (LLM) progressent à un rythme sans précédent à l'échelle mondiale, avec des régions qui adoptent de plus en plus ces modèles pour des applications dans leur langue principale. L'évaluation de ces modèles dans des environnements linguistiques divers, en particulier pour les langues à ressources limitées, est devenue un défi majeur pour le monde académique et l'industrie. Les cadres d'évaluation existants se concentrent de manière disproportionnée sur l'anglais et quelques langues à ressources abondantes, négligeant ainsi la performance réelle des LLM dans des scénarios multilingues et à ressources limitées. Pour combler cette lacune, nous présentons GlotEval, un cadre léger conçu pour une évaluation massivement multilingue. Soutenant sept tâches clés (traduction automatique, classification de texte, résumé, génération ouverte, compréhension de lecture, étiquetage de séquences et évaluation intrinsèque), couvrant des dizaines à des centaines de langues, GlotEval met en avant un benchmarking multilingue cohérent, des modèles de prompts spécifiques à chaque langue et une traduction automatique non centrée sur l'anglais. Cela permet un diagnostic précis des forces et faiblesses des modèles dans divers contextes linguistiques. Une étude de cas sur la traduction multilingue démontre l'applicabilité de GlotEval pour les évaluations multilingues et spécifiques à chaque langue.
English
Large language models (LLMs) are advancing at an unprecedented pace globally, with regions increasingly adopting these models for applications in their primary language. Evaluation of these models in diverse linguistic environments, especially in low-resource languages, has become a major challenge for academia and industry. Existing evaluation frameworks are disproportionately focused on English and a handful of high-resource languages, thereby overlooking the realistic performance of LLMs in multilingual and lower-resource scenarios. To address this gap, we introduce GlotEval, a lightweight framework designed for massively multilingual evaluation. Supporting seven key tasks (machine translation, text classification, summarization, open-ended generation, reading comprehension, sequence labeling, and intrinsic evaluation), spanning over dozens to hundreds of languages, GlotEval highlights consistent multilingual benchmarking, language-specific prompt templates, and non-English-centric machine translation. This enables a precise diagnosis of model strengths and weaknesses in diverse linguistic contexts. A multilingual translation case study demonstrates GlotEval's applicability for multilingual and language-specific evaluations.

Summary

AI-Generated Summary

PDF12April 8, 2025