ChatPaper.aiChatPaper

MaLA-500: Adaptação Massiva de Linguagem para Modelos de Linguagem de Grande Escala

MaLA-500: Massive Language Adaptation of Large Language Models

January 24, 2024
Autores: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI

Resumo

Modelos de linguagem de grande escala avançaram o estado da arte no processamento de linguagem natural. No entanto, seu design predominante para o inglês ou um conjunto limitado de idiomas cria uma lacuna substancial em sua eficácia para línguas de baixos recursos. Para preencher essa lacuna, apresentamos o MaLA-500, um novo modelo de linguagem de grande escala projetado para abranger uma ampla gama de 534 idiomas. Para treinar o MaLA-500, empregamos extensão de vocabulário e pré-treinamento contínuo no LLaMA 2 com o Glot500-c. Nossos experimentos no SIB-200 mostram que o MaLA-500 alcança resultados de aprendizado em contexto de última geração. Disponibilizamos o MaLA-500 em https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM
PDF121December 15, 2024