Il Benchmark Belebele: un Dataset Parallelo di Comprensione del Testo in 122 Varianti Linguistiche
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
August 31, 2023
Autori: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa
cs.AI
Abstract
Presentiamo Belebele, un dataset di comprensione della lettura automatica (MRC) a scelta multipla che copre 122 varianti linguistiche. Ampliando significativamente la copertura linguistica dei benchmark per la comprensione del linguaggio naturale (NLU), questo dataset consente la valutazione di modelli di testo in lingue ad alta, media e bassa risorsa. Ogni domanda si basa su un breve passaggio tratto dal dataset Flores-200 e presenta quattro risposte a scelta multipla. Le domande sono state curate con attenzione per discriminare tra modelli con diversi livelli di comprensione linguistica generale. Il dataset in inglese, da solo, si dimostra sufficientemente difficile da mettere alla prova i modelli linguistici all'avanguardia. Essendo completamente parallelo, questo dataset consente un confronto diretto delle prestazioni dei modelli in tutte le lingue. Utilizziamo questo dataset per valutare le capacità dei modelli linguistici mascherati multilingue (MLM) e dei grandi modelli linguistici (LLM). Presentiamo risultati estesi e scopriamo che, nonostante un significativo trasferimento cross-linguale negli LLM centrati sull'inglese, MLM molto più piccoli pre-addestrati su dati multilingue bilanciati comprendono ancora molte più lingue. Osserviamo inoltre che una dimensione del vocabolario più ampia e una costruzione consapevole del vocabolario sono correlate a prestazioni migliori nelle lingue a bassa risorsa. Nel complesso, Belebele apre nuove strade per la valutazione e l'analisi delle capacità multilingue dei sistemi di elaborazione del linguaggio naturale (NLP).
English
We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.