Le Benchmark Belebele : un ensemble de données parallèles de compréhension de lecture en 122 variantes linguistiques
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
August 31, 2023
Auteurs: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa
cs.AI
Résumé
Nous présentons Belebele, un ensemble de données de compréhension de lecture assistée par machine (MRC) à choix multiples couvrant 122 variantes linguistiques. En élargissant considérablement la couverture linguistique des benchmarks de compréhension du langage naturel (NLU), cet ensemble de données permet d'évaluer les modèles de texte dans des langues à ressources élevées, moyennes et faibles. Chaque question est basée sur un court passage de l'ensemble de données Flores-200 et propose quatre réponses à choix multiples. Les questions ont été soigneusement sélectionnées pour discriminer les modèles ayant différents niveaux de compréhension générale du langage. L'ensemble de données en anglais à lui seul s'avère suffisamment difficile pour mettre à l'épreuve les modèles de langage les plus avancés. Étant entièrement parallèle, cet ensemble de données permet une comparaison directe des performances des modèles dans toutes les langues. Nous utilisons cet ensemble de données pour évaluer les capacités des modèles de langage masqué multilingues (MLMs) et des grands modèles de langage (LLMs). Nous présentons des résultats détaillés et constatons que, malgré un transfert interlinguistique significatif dans les LLMs centrés sur l'anglais, des MLMs beaucoup plus petits pré-entraînés sur des données multilingues équilibrées comprennent encore bien plus de langues. Nous observons également qu'une taille de vocabulaire plus importante et une construction consciente du vocabulaire sont corrélées à de meilleures performances sur les langues à faibles ressources. Globalement, Belebele ouvre de nouvelles voies pour évaluer et analyser les capacités multilingues des systèmes de traitement du langage naturel (NLP).
English
We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.Summary
AI-Generated Summary