ChatPaper.aiChatPaper

MUG-Eval: 任意言語における多言語生成能力のプロキシ評価フレームワーク

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
著者: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

要旨

大規模言語モデル(LLM)のテキスト生成能力を評価することは困難であり、特に低リソース言語では直接的な評価手法が不足している。本論文では、MUG-Evalという新しいフレームワークを提案する。このフレームワークは、既存のベンチマークを会話タスクに変換し、LLMのそれらのタスクに対する精度を測定することで、LLMの多言語生成能力を評価する。これらの会話タスクは、対象言語での効果的なコミュニケーションを必要とするように特別に設計されている。そして、タスクの成功率を会話生成の成功の代理指標として単純に使用する。我々のアプローチには2つの重要な利点がある。第一に、ほとんどの言語で限られている言語固有のNLPツールや注釈付きデータセットに依存しないこと、第二に、少数の高リソース言語以外では評価品質が低下するLLM-as-judgesに頼らないことである。我々は、高リソース、中リソース、低リソースのカテゴリにまたがる30言語で8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強い相関(r > 0.75)を示しつつ、言語やモデル間での標準化された比較を可能にすることを発見した。我々のフレームワークは、数千の言語に拡張可能な、多言語生成評価のための堅牢でリソース効率的なソリューションを提供する。
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.

Summary

AI-Generated Summary

PDF22May 23, 2025