MaLA-500: Massale Taalaanpassing van Grote Taalmodellen
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
Auteurs: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
Samenvatting
Grote taalmodellen hebben de stand van de techniek in natuurlijke taalverwerking vooruitgebracht. Hun overheersende ontwerp voor Engels of een beperkte set talen creëert echter een aanzienlijke kloof in hun effectiviteit voor talen met weinig bronnen. Om deze kloof te overbruggen, introduceren we MaLA-500, een nieuw groot taalmodel dat is ontworpen om een uitgebreid bereik van 534 talen te bestrijken. Om MaLA-500 te trainen, gebruiken we vocabulaire-uitbreiding en voortgezet vooraf trainen op LLaMA 2 met Glot500-c. Onze experimenten op SIB-200 tonen aan dat MaLA-500 state-of-the-art resultaten behaalt in contextueel leren. We maken MaLA-500 beschikbaar op https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM