MaLA-500: Adaptación Masiva de Lenguajes para Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje de gran escala han avanzado el estado del arte en el procesamiento del lenguaje natural. Sin embargo, su diseño predominante para el inglés o un conjunto limitado de idiomas crea una brecha sustancial en su efectividad para lenguajes de bajos recursos. Para cerrar esta brecha, presentamos MaLA-500, un novedoso modelo de lenguaje de gran escala diseñado para cubrir un amplio rango de 534 idiomas. Para entrenar MaLA-500, empleamos extensión de vocabulario y preentrenamiento continuo en LLaMA 2 con Glot500-c. Nuestros experimentos en SIB-200 muestran que MaLA-500 logra resultados de última generación en aprendizaje en contexto. Publicamos MaLA-500 en https://huggingface.co/MaLA-LM.

English

Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM

MaLA-500: Adaptación Masiva de Lenguajes para Modelos de Lenguaje a Gran Escala

MaLA-500: Massive Language Adaptation of Large Language Models

Resumen

Support