GlotEval: Eine Testsuite für die massiv mehrsprachige Evaluierung großer Sprachmodelle
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models
April 5, 2025
Autoren: Hengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) entwickeln sich weltweit in einem beispiellosen Tempo weiter, wobei Regionen zunehmend diese Modelle für Anwendungen in ihrer Hauptsprache übernehmen. Die Bewertung dieser Modelle in verschiedenen sprachlichen Umgebungen, insbesondere in ressourcenarmen Sprachen, ist zu einer großen Herausforderung für Wissenschaft und Industrie geworden. Bestehende Bewertungsrahmen konzentrieren sich überproportional auf Englisch und eine Handvoll ressourcenreicher Sprachen, wodurch die realistische Leistung von LLMs in mehrsprachigen und ressourcenärmeren Szenarien übersehen wird. Um diese Lücke zu schließen, stellen wir GlotEval vor, einen schlanken Rahmen, der für massiv mehrsprachige Bewertungen konzipiert ist. Mit Unterstützung für sieben Schlüsselaufgaben (Maschinelle Übersetzung, Textklassifizierung, Zusammenfassung, offene Textgenerierung, Leseverständnis, Sequenzbeschriftung und intrinsische Bewertung), die Dutzende bis Hunderte von Sprachen umfassen, hebt GlotEval konsistente mehrsprachige Benchmarking, sprachspezifische Prompt-Vorlagen und nicht-englischzentrierte maschinelle Übersetzung hervor. Dies ermöglicht eine präzise Diagnose der Stärken und Schwächen von Modellen in verschiedenen sprachlichen Kontexten. Eine mehrsprachige Übersetzungsfallstudie demonstriert die Anwendbarkeit von GlotEval für mehrsprachige und sprachspezifische Bewertungen.
English
Large language models (LLMs) are advancing at an unprecedented pace globally,
with regions increasingly adopting these models for applications in their
primary language. Evaluation of these models in diverse linguistic
environments, especially in low-resource languages, has become a major
challenge for academia and industry. Existing evaluation frameworks are
disproportionately focused on English and a handful of high-resource languages,
thereby overlooking the realistic performance of LLMs in multilingual and
lower-resource scenarios. To address this gap, we introduce GlotEval, a
lightweight framework designed for massively multilingual evaluation.
Supporting seven key tasks (machine translation, text classification,
summarization, open-ended generation, reading comprehension, sequence labeling,
and intrinsic evaluation), spanning over dozens to hundreds of languages,
GlotEval highlights consistent multilingual benchmarking, language-specific
prompt templates, and non-English-centric machine translation. This enables a
precise diagnosis of model strengths and weaknesses in diverse linguistic
contexts. A multilingual translation case study demonstrates GlotEval's
applicability for multilingual and language-specific evaluations.Summary
AI-Generated Summary