MaLA-500: Adattamento Massiccio dei Modelli Linguistici di Grande Scala

Abstract

I grandi modelli linguistici hanno fatto avanzare lo stato dell'arte nell'elaborazione del linguaggio naturale. Tuttavia, il loro design prevalentemente orientato all'inglese o a un numero limitato di lingue crea un divario significativo nella loro efficacia per le lingue a bassa risorsa. Per colmare questo divario, introduciamo MaLA-500, un nuovo grande modello linguistico progettato per coprire un'ampia gamma di 534 lingue. Per addestrare MaLA-500, utilizziamo l'estensione del vocabolario e il pretraining continuato su LLaMA 2 con Glot500-c. I nostri esperimenti su SIB-200 dimostrano che MaLA-500 raggiunge risultati all'avanguardia nell'apprendimento in contesto. Rilasciamo MaLA-500 all'indirizzo https://huggingface.co/MaLA-LM.

English

Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM

MaLA-500: Adattamento Massiccio dei Modelli Linguistici di Grande Scala

MaLA-500: Massive Language Adaptation of Large Language Models

Abstract

Support