MaLA-500: Adaptação Massiva de Linguagem para Modelos de Linguagem de Grande Escala

Resumo

Modelos de linguagem de grande escala avançaram o estado da arte no processamento de linguagem natural. No entanto, seu design predominante para o inglês ou um conjunto limitado de idiomas cria uma lacuna substancial em sua eficácia para línguas de baixos recursos. Para preencher essa lacuna, apresentamos o MaLA-500, um novo modelo de linguagem de grande escala projetado para abranger uma ampla gama de 534 idiomas. Para treinar o MaLA-500, empregamos extensão de vocabulário e pré-treinamento contínuo no LLaMA 2 com o Glot500-c. Nossos experimentos no SIB-200 mostram que o MaLA-500 alcança resultados de aprendizado em contexto de última geração. Disponibilizamos o MaLA-500 em https://huggingface.co/MaLA-LM.

English

Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM

MaLA-500: Adaptação Massiva de Linguagem para Modelos de Linguagem de Grande Escala

MaLA-500: Massive Language Adaptation of Large Language Models

Resumo

Support