InkubaLM: Un modelo de lenguaje pequeño para idiomas africanos de bajos recursos
InkubaLM: A small language model for low-resource African languages
August 30, 2024
Autores: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI
Resumen
Los modelos de lenguaje de alto recurso a menudo no cumplen con las expectativas en el contexto africano, donde existe una necesidad crítica de modelos eficientes, accesibles y localmente relevantes, incluso en medio de importantes limitaciones computacionales y de datos. Este artículo presenta InkubaLM, un modelo de lenguaje pequeño con 0.4 mil millones de parámetros, que logra un rendimiento comparable a modelos con recuentos de parámetros significativamente mayores y datos de entrenamiento más extensos en tareas como la traducción automática, preguntas y respuestas, AfriMMLU y la tarea AfriXnli. Es importante destacar que InkubaLM supera a muchos modelos más grandes en análisis de sentimientos y demuestra una notable consistencia en múltiples idiomas. Este trabajo representa un avance fundamental al desafiar el paradigma convencional de que los modelos de lenguaje efectivos deben depender de recursos sustanciales. Nuestro modelo y conjuntos de datos están disponibles públicamente en \url{https://huggingface.co/lelapa} para fomentar la investigación y el desarrollo en lenguajes de bajo recurso.
English
High-resource language models often fall short in the African context, where
there is a critical need for models that are efficient, accessible, and locally
relevant, even amidst significant computing and data constraints. This paper
introduces InkubaLM, a small language model with 0.4 billion parameters, which
achieves performance comparable to models with significantly larger parameter
counts and more extensive training data on tasks such as machine translation,
question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM
outperforms many larger models in sentiment analysis and demonstrates
remarkable consistency across multiple languages. This work represents a
pivotal advancement in challenging the conventional paradigm that effective
language models must rely on substantial resources. Our model and datasets are
publicly available \url{https://huggingface.co/lelapa} to encourage
research and development on low-resource languages.Summary
AI-Generated Summary