MaLA-500: Adaptación Masiva de Lenguajes para Modelos de Lenguaje a Gran Escala
MaLA-500: Massive Language Adaptation of Large Language Models
January 24, 2024
Autores: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze
cs.AI
Resumen
Los modelos de lenguaje de gran escala han avanzado el estado del arte en el procesamiento del lenguaje natural. Sin embargo, su diseño predominante para el inglés o un conjunto limitado de idiomas crea una brecha sustancial en su efectividad para lenguajes de bajos recursos. Para cerrar esta brecha, presentamos MaLA-500, un novedoso modelo de lenguaje de gran escala diseñado para cubrir un amplio rango de 534 idiomas. Para entrenar MaLA-500, empleamos extensión de vocabulario y preentrenamiento continuo en LLaMA 2 con Glot500-c. Nuestros experimentos en SIB-200 muestran que MaLA-500 logra resultados de última generación en aprendizaje en contexto. Publicamos MaLA-500 en https://huggingface.co/MaLA-LM.
English
Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM