Бенчмарк Belebele: параллельный набор данных для оценки понимания прочитанного на 122 языковых вариантах

Аннотация

Мы представляем Belebele — набор данных для машинного чтения с пониманием (MRC) с множественным выбором, охватывающий 122 языковых варианта. Значительно расширяя языковое покрытие бенчмарков для понимания естественного языка (NLU), этот набор данных позволяет оценивать текстовые модели на языках с высоким, средним и низким уровнем ресурсов. Каждый вопрос основан на коротком отрывке из набора данных Flores-200 и имеет четыре варианта ответа. Вопросы были тщательно отобраны для различения моделей с разным уровнем общего языкового понимания. Даже англоязычная версия набора данных сама по себе оказывается достаточно сложной, чтобы бросить вызов современным языковым моделям. Будучи полностью параллельным, этот набор данных позволяет напрямую сравнивать производительность моделей на всех языках. Мы используем этот набор данных для оценки возможностей многоязычных масочных языковых моделей (MLM) и крупных языковых моделей (LLM). Мы представляем обширные результаты и обнаруживаем, что, несмотря на значительный кросс-лингвистический перенос в англоцентричных LLM, гораздо меньшие MLM, предобученные на сбалансированных многоязычных данных, всё же понимают значительно больше языков. Мы также наблюдаем, что больший размер словаря и осознанное построение словаря коррелируют с лучшей производительностью на языках с низким уровнем ресурсов. В целом, Belebele открывает новые возможности для оценки и анализа многоязычных возможностей систем обработки естественного языка (NLP).

English

We present Belebele, a multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants. Significantly expanding the language coverage of natural language understanding (NLU) benchmarks, this dataset enables the evaluation of text models in high-, medium-, and low-resource languages. Each question is based on a short passage from the Flores-200 dataset and has four multiple-choice answers. The questions were carefully curated to discriminate between models with different levels of general language comprehension. The English dataset on its own proves difficult enough to challenge state-of-the-art language models. Being fully parallel, this dataset enables direct comparison of model performance across all languages. We use this dataset to evaluate the capabilities of multilingual masked language models (MLMs) and large language models (LLMs). We present extensive results and find that despite significant cross-lingual transfer in English-centric LLMs, much smaller MLMs pretrained on balanced multilingual data still understand far more languages. We also observe that larger vocabulary size and conscious vocabulary construction correlate with better performance on low-resource languages. Overall, Belebele opens up new avenues for evaluating and analyzing the multilingual capabilities of NLP systems.

Бенчмарк Belebele: параллельный набор данных для оценки понимания прочитанного на 122 языковых вариантах

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

Аннотация

Summary

Support