Belebeleベンチマーク:122の言語バリアントにおける並列読解データセット
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
August 31, 2023
著者: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa
cs.AI
要旨
私たちは、122の言語バリアントにわたる多肢選択式機械読解(MRC)データセットであるBelebeleを紹介します。このデータセットは、自然言語理解(NLU)ベンチマークの言語カバレッジを大幅に拡大し、高リソース、中リソース、低リソース言語におけるテキストモデルの評価を可能にします。各質問は、Flores-200データセットからの短いパッセージに基づいており、4つの多肢選択式の回答を持っています。質問は、異なるレベルの一般的な言語理解能力を持つモデルを区別するために慎重に選ばれました。英語のデータセットだけでも、最先端の言語モデルにとって十分に難しいことが証明されています。完全に並列であるこのデータセットは、すべての言語にわたるモデルの性能を直接比較することを可能にします。私たちは、このデータセットを使用して、多言語マスク言語モデル(MLM)と大規模言語モデル(LLM)の能力を評価します。広範な結果を提示し、英語中心のLLMにおける重要な言語間転移にもかかわらず、バランスの取れた多言語データで事前学習されたはるかに小規模なMLMが、依然としてはるかに多くの言語を理解していることを発見しました。また、より大きな語彙サイズと意識的な語彙構築が、低リソース言語でのより良い性能と相関していることも観察しました。全体として、Belebeleは、NLPシステムの多言語能力を評価および分析するための新しい道を開きます。
English
We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.Summary
AI-Generated Summary