MaLA-500: Adattamento Massiccio dei Modelli Linguistici di Grande Scala
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
Autori: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
Abstract
I grandi modelli linguistici hanno fatto avanzare lo stato dell'arte nell'elaborazione del linguaggio naturale. Tuttavia, il loro design prevalentemente orientato all'inglese o a un numero limitato di lingue crea un divario significativo nella loro efficacia per le lingue a bassa risorsa. Per colmare questo divario, introduciamo MaLA-500, un nuovo grande modello linguistico progettato per coprire un'ampia gamma di 534 lingue. Per addestrare MaLA-500, utilizziamo l'estensione del vocabolario e il pretraining continuato su LLaMA 2 con Glot500-c. I nostri esperimenti su SIB-200 dimostrano che MaLA-500 raggiunge risultati all'avanguardia nell'apprendimento in contesto. Rilasciamo MaLA-500 all'indirizzo https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM