GlotEval: Een Testsuite voor Massaal Meertalige Evaluatie van Grote Taalmodellen
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models
April 5, 2025
Auteurs: Hengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann
cs.AI
Samenvatting
Grote taalmodellen (LLMs) ontwikkelen zich wereldwijd in een ongekend tempo, waarbij regio's deze modellen steeds vaker toepassen in hun primaire taal. Het evalueren van deze modellen in diverse taalomgevingen, met name in talen met beperkte bronnen, is een grote uitdaging geworden voor zowel de academische wereld als de industrie. Bestaande evaluatieframeworks richten zich onevenredig veel op Engels en een handvol talen met veel bronnen, waardoor de realistische prestaties van LLMs in meertalige en minder bronrijke scenario's over het hoofd worden gezien. Om dit gat te dichten, introduceren we GlotEval, een lichtgewicht framework ontworpen voor massaal meertalige evaluatie. Met ondersteuning voor zeven belangrijke taken (machinevertaling, tekstclassificatie, samenvatting, open-einde generatie, leesbegrip, sequentielabeling en intrinsieke evaluatie), die tientallen tot honderden talen omvatten, benadrukt GlotEval consistente meertalige benchmarking, taalspecifieke promptsjablonen en niet-Engels-centrische machinevertaling. Dit maakt een nauwkeurige diagnose van de sterke en zwakke punten van modellen in diverse taalkundige contexten mogelijk. Een meertalige vertalingscasestudie toont de toepasbaarheid van GlotEval voor meertalige en taalspecifieke evaluaties.
English
Large language models (LLMs) are advancing at an unprecedented pace globally,
with regions increasingly adopting these models for applications in their
primary language. Evaluation of these models in diverse linguistic
environments, especially in low-resource languages, has become a major
challenge for academia and industry. Existing evaluation frameworks are
disproportionately focused on English and a handful of high-resource languages,
thereby overlooking the realistic performance of LLMs in multilingual and
lower-resource scenarios. To address this gap, we introduce GlotEval, a
lightweight framework designed for massively multilingual evaluation.
Supporting seven key tasks (machine translation, text classification,
summarization, open-ended generation, reading comprehension, sequence labeling,
and intrinsic evaluation), spanning over dozens to hundreds of languages,
GlotEval highlights consistent multilingual benchmarking, language-specific
prompt templates, and non-English-centric machine translation. This enables a
precise diagnosis of model strengths and weaknesses in diverse linguistic
contexts. A multilingual translation case study demonstrates GlotEval's
applicability for multilingual and language-specific evaluations.Summary
AI-Generated Summary