O Benchmark Belebele: um Conjunto de Dados Paralelo de Compreensão de Leitura em 122 Variantes Linguísticas
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
August 31, 2023
Autores: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa
cs.AI
Resumo
Apresentamos o Belebele, um conjunto de dados de compreensão de leitura automatizada (MRC) de múltipla escolha que abrange 122 variantes linguísticas. Expandindo significativamente a cobertura linguística de benchmarks de compreensão de linguagem natural (NLU), este conjunto de dados permite a avaliação de modelos de texto em idiomas de alta, média e baixa disponibilidade de recursos. Cada questão é baseada em um trecho curto do conjunto de dados Flores-200 e possui quatro opções de resposta. As questões foram cuidadosamente elaboradas para discriminar entre modelos com diferentes níveis de compreensão geral da linguagem. O conjunto de dados em inglês, por si só, prova-se desafiador o suficiente para testar modelos de linguagem state-of-the-art. Sendo totalmente paralelo, este conjunto de dados permite a comparação direta do desempenho dos modelos em todos os idiomas. Utilizamos este conjunto de dados para avaliar as capacidades de modelos de linguagem mascarados multilingues (MLMs) e modelos de linguagem de grande escala (LLMs). Apresentamos resultados extensivos e constatamos que, apesar da significativa transferência interlinguística em LLMs centrados no inglês, MLMs muito menores pré-treinados com dados multilingues equilibrados ainda compreendem muito mais idiomas. Também observamos que um tamanho maior de vocabulário e uma construção consciente do vocabulário estão correlacionados com um melhor desempenho em idiomas de baixa disponibilidade de recursos. No geral, o Belebele abre novas possibilidades para avaliar e analisar as capacidades multilingues de sistemas de processamento de linguagem natural (NLP).
English
We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.