Belebele 벤치마크: 122개 언어 변형으로 구성된 병렬 독해 데이터셋
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
August 31, 2023
저자: Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa
cs.AI
초록
우리는 122개 언어 변형을 아우르는 객관식 기계 독해(MRC) 데이터셋인 Belebele를 소개한다. 이 데이터셋은 자연어 이해(NLU) 벤치마크의 언어 범위를 크게 확장하여 고자원, 중자원, 저자원 언어에서 텍스트 모델의 평가를 가능하게 한다. 각 질문은 Flores-200 데이터셋의 짧은 문단을 기반으로 하며, 네 가지 객관식 답변을 포함한다. 질문들은 다양한 수준의 일반 언어 이해 능력을 가진 모델들을 구별할 수 있도록 신중하게 선별되었다. 영어 데이터셋만으로도 최첨단 언어 모델에 도전할 만큼 충분히 어려운 수준임이 입증되었다. 완전히 병렬적인 이 데이터셋은 모든 언어에 걸쳐 모델 성능을 직접 비교할 수 있게 한다. 우리는 이 데이터셋을 사용하여 다국어 마스크 언어 모델(MLM)과 대형 언어 모델(LLM)의 능력을 평가한다. 광범위한 결과를 제시하며, 영어 중심의 LLM에서 상당한 교차 언어 전이가 이루어지더라도 균형 잡힌 다국어 데이터로 사전 학습된 훨씬 작은 MLM이 여전히 훨씬 더 많은 언어를 이해한다는 사실을 발견했다. 또한 더 큰 어휘 크기와 의식적인 어휘 구성이 저자원 언어에서 더 나은 성능과 상관관계가 있음을 관찰했다. 전반적으로, Belebele는 NLP 시스템의 다국어 능력을 평가하고 분석할 수 있는 새로운 길을 열어준다.
English
We present Belebele, a multiple-choice machine reading comprehension (MRC)
dataset spanning 122 language variants. Significantly expanding the language
coverage of natural language understanding (NLU) benchmarks, this dataset
enables the evaluation of text models in high-, medium-, and low-resource
languages. Each question is based on a short passage from the Flores-200
dataset and has four multiple-choice answers. The questions were carefully
curated to discriminate between models with different levels of general
language comprehension. The English dataset on its own proves difficult enough
to challenge state-of-the-art language models. Being fully parallel, this
dataset enables direct comparison of model performance across all languages. We
use this dataset to evaluate the capabilities of multilingual masked language
models (MLMs) and large language models (LLMs). We present extensive results
and find that despite significant cross-lingual transfer in English-centric
LLMs, much smaller MLMs pretrained on balanced multilingual data still
understand far more languages. We also observe that larger vocabulary size and
conscious vocabulary construction correlate with better performance on
low-resource languages. Overall, Belebele opens up new avenues for evaluating
and analyzing the multilingual capabilities of NLP systems.Summary
AI-Generated Summary