Бенчмарк Belebele: параллельный набор данных для оценки понимания прочитанного на 122 языковых вариантах
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
August 31, 2023
Авторы: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa
cs.AI
Аннотация
Мы представляем Belebele — набор данных для машинного чтения с пониманием (MRC) с множественным выбором, охватывающий 122 языковых варианта. Значительно расширяя языковое покрытие бенчмарков для понимания естественного языка (NLU), этот набор данных позволяет оценивать текстовые модели на языках с высоким, средним и низким уровнем ресурсов. Каждый вопрос основан на коротком отрывке из набора данных Flores-200 и имеет четыре варианта ответа. Вопросы были тщательно отобраны для различения моделей с разным уровнем общего языкового понимания. Даже англоязычная версия набора данных сама по себе оказывается достаточно сложной, чтобы бросить вызов современным языковым моделям. Будучи полностью параллельным, этот набор данных позволяет напрямую сравнивать производительность моделей на всех языках. Мы используем этот набор данных для оценки возможностей многоязычных масочных языковых моделей (MLM) и крупных языковых моделей (LLM). Мы представляем обширные результаты и обнаруживаем, что, несмотря на значительный кросс-лингвистический перенос в англоцентричных LLM, гораздо меньшие MLM, предобученные на сбалансированных многоязычных данных, всё же понимают значительно больше языков. Мы также наблюдаем, что больший размер словаря и осознанное построение словаря коррелируют с лучшей производительностью на языках с низким уровнем ресурсов. В целом, Belebele открывает новые возможности для оценки и анализа многоязычных возможностей систем обработки естественного языка (NLP).
English
We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.Summary
AI-Generated Summary