Il Benchmark Belebele: un Dataset Parallelo di Comprensione del Testo in 122 Varianti Linguistiche

Abstract

Presentiamo Belebele, un dataset di comprensione della lettura automatica (MRC) a scelta multipla che copre 122 varianti linguistiche. Ampliando significativamente la copertura linguistica dei benchmark per la comprensione del linguaggio naturale (NLU), questo dataset consente la valutazione di modelli di testo in lingue ad alta, media e bassa risorsa. Ogni domanda si basa su un breve passaggio tratto dal dataset Flores-200 e presenta quattro risposte a scelta multipla. Le domande sono state curate con attenzione per discriminare tra modelli con diversi livelli di comprensione linguistica generale. Il dataset in inglese, da solo, si dimostra sufficientemente difficile da mettere alla prova i modelli linguistici all'avanguardia. Essendo completamente parallelo, questo dataset consente un confronto diretto delle prestazioni dei modelli in tutte le lingue. Utilizziamo questo dataset per valutare le capacità dei modelli linguistici mascherati multilingue (MLM) e dei grandi modelli linguistici (LLM). Presentiamo risultati estesi e scopriamo che, nonostante un significativo trasferimento cross-linguale negli LLM centrati sull'inglese, MLM molto più piccoli pre-addestrati su dati multilingue bilanciati comprendono ancora molte più lingue. Osserviamo inoltre che una dimensione del vocabolario più ampia e una costruzione consapevole del vocabolario sono correlate a prestazioni migliori nelle lingue a bassa risorsa. Nel complesso, Belebele apre nuove strade per la valutazione e l'analisi delle capacità multilingue dei sistemi di elaborazione del linguaggio naturale (NLP).

English

We present Belebele, a multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants. Significantly expanding the language coverage of natural language understanding (NLU) benchmarks, this dataset enables the evaluation of text models in high-, medium-, and low-resource languages. Each question is based on a short passage from the Flores-200 dataset and has four multiple-choice answers. The questions were carefully curated to discriminate between models with different levels of general language comprehension. The English dataset on its own proves difficult enough to challenge state-of-the-art language models. Being fully parallel, this dataset enables direct comparison of model performance across all languages. We use this dataset to evaluate the capabilities of multilingual masked language models (MLMs) and large language models (LLMs). We present extensive results and find that despite significant cross-lingual transfer in English-centric LLMs, much smaller MLMs pretrained on balanced multilingual data still understand far more languages. We also observe that larger vocabulary size and conscious vocabulary construction correlate with better performance on low-resource languages. Overall, Belebele opens up new avenues for evaluating and analyzing the multilingual capabilities of NLP systems.

Il Benchmark Belebele: un Dataset Parallelo di Comprensione del Testo in 122 Varianti Linguistiche

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

Abstract

Support