MaLA-500 : Adaptation massive de modèles linguistiques de grande envergure
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
Auteurs: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
Résumé
Les grands modèles de langage ont fait progresser l'état de l'art dans le traitement du langage naturel. Cependant, leur conception principalement axée sur l'anglais ou un ensemble limité de langues crée un écart substantiel dans leur efficacité pour les langues à faibles ressources. Pour combler cet écart, nous présentons MaLA-500, un nouveau grand modèle de langage conçu pour couvrir un vaste éventail de 534 langues. Pour entraîner MaLA-500, nous utilisons une extension de vocabulaire et un pré-entraînement continu sur LLaMA 2 avec Glot500-c. Nos expériences sur SIB-200 montrent que MaLA-500 atteint des résultats de pointe en apprentissage en contexte. Nous mettons MaLA-500 à disposition sur https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM