MaLA-500: Adaptação Massiva de Linguagem para Modelos de Linguagem de Grande Escala
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
Autores: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
Resumo
Modelos de linguagem de grande escala avançaram o estado da arte no processamento de linguagem natural. No entanto, seu design predominante para o inglês ou um conjunto limitado de idiomas cria uma lacuna substancial em sua eficácia para línguas de baixos recursos. Para preencher essa lacuna, apresentamos o MaLA-500, um novo modelo de linguagem de grande escala projetado para abranger uma ampla gama de 534 idiomas. Para treinar o MaLA-500, empregamos extensão de vocabulário e pré-treinamento contínuo no LLaMA 2 com o Glot500-c. Nossos experimentos no SIB-200 mostram que o MaLA-500 alcança resultados de aprendizado em contexto de última geração. Disponibilizamos o MaLA-500 em https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM