ChatPaper.aiChatPaper

MaLA-500: Massives Sprachadaptieren großer Sprachmodelle

MaLA-500: Massive Language Adaptation of Large Language Models

January 24, 2024
Autoren: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI

Zusammenfassung

Große Sprachmodelle haben den Stand der Technik in der natürlichen Sprachverarbeitung vorangetrieben. Ihre vorherrschende Ausrichtung auf Englisch oder eine begrenzte Anzahl von Sprachen führt jedoch zu einer erheblichen Lücke in ihrer Effektivität für ressourcenarme Sprachen. Um diese Lücke zu schließen, stellen wir MaLA-500 vor, ein neuartiges großes Sprachmodell, das eine umfangreiche Palette von 534 Sprachen abdeckt. Um MaLA-500 zu trainieren, verwenden wir Vokabularerweiterung und fortgesetztes Vortraining auf LLaMA 2 mit Glot500-c. Unsere Experimente auf SIB-200 zeigen, dass MaLA-500 state-of-the-art Ergebnisse im In-Context-Lernen erzielt. Wir veröffentlichen MaLA-500 unter https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM
PDF131December 15, 2024