ChatPaper.aiChatPaper

MaLA-500: Adaptación Masiva de Lenguajes para Modelos de Lenguaje a Gran Escala

MaLA-500: Massive Language Adaptation of Large Language Models

January 24, 2024
Autores: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI

Resumen

Los modelos de lenguaje de gran escala han avanzado el estado del arte en el procesamiento del lenguaje natural. Sin embargo, su diseño predominante para el inglés o un conjunto limitado de idiomas crea una brecha sustancial en su efectividad para lenguajes de bajos recursos. Para cerrar esta brecha, presentamos MaLA-500, un novedoso modelo de lenguaje de gran escala diseñado para cubrir un amplio rango de 534 idiomas. Para entrenar MaLA-500, empleamos extensión de vocabulario y preentrenamiento continuo en LLaMA 2 con Glot500-c. Nuestros experimentos en SIB-200 muestran que MaLA-500 logra resultados de última generación en aprendizaje en contexto. Publicamos MaLA-500 en https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM
PDF131December 15, 2024