GlotEval: 大規模言語モデルの大規模多言語評価用テストスイート
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models
April 5, 2025
著者: Hengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann
cs.AI
要旨
大規模言語モデル(LLMs)は世界的に前例のない速度で進化しており、各地域ではこれらのモデルを主要言語での応用に採用する動きが加速しています。特に低リソース言語を含む多様な言語環境におけるこれらのモデルの評価は、学界と産業界にとって大きな課題となっています。既存の評価フレームワークは英語や一部の高リソース言語に偏重しており、多言語および低リソースシナリオにおけるLLMsの現実的な性能を見落としています。このギャップを埋めるため、我々はGlotEvalを紹介します。これは大規模多言語評価のために設計された軽量フレームワークです。7つの主要なタスク(機械翻訳、テキスト分類、要約、オープンエンド生成、読解、シーケンスラベリング、内在的評価)をサポートし、数十から数百の言語にまたがるGlotEvalは、一貫した多言語ベンチマーキング、言語固有のプロンプトテンプレート、非英語中心の機械翻訳を特徴としています。これにより、多様な言語コンテキストにおけるモデルの強みと弱みを正確に診断することが可能になります。多言語翻訳のケーススタディは、GlotEvalが多言語および言語固有の評価に適用可能であることを示しています。
English
Large language models (LLMs) are advancing at an unprecedented pace globally,
with regions increasingly adopting these models for applications in their
primary language. Evaluation of these models in diverse linguistic
environments, especially in low-resource languages, has become a major
challenge for academia and industry. Existing evaluation frameworks are
disproportionately focused on English and a handful of high-resource languages,
thereby overlooking the realistic performance of LLMs in multilingual and
lower-resource scenarios. To address this gap, we introduce GlotEval, a
lightweight framework designed for massively multilingual evaluation.
Supporting seven key tasks (machine translation, text classification,
summarization, open-ended generation, reading comprehension, sequence labeling,
and intrinsic evaluation), spanning over dozens to hundreds of languages,
GlotEval highlights consistent multilingual benchmarking, language-specific
prompt templates, and non-English-centric machine translation. This enables a
precise diagnosis of model strengths and weaknesses in diverse linguistic
contexts. A multilingual translation case study demonstrates GlotEval's
applicability for multilingual and language-specific evaluations.