InkubaLM : Un petit modèle de langue pour les langues africaines à faibles ressources
InkubaLM: A small language model for low-resource African languages
August 30, 2024
Auteurs: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI
Résumé
Les modèles linguistiques à ressources élevées sont souvent insuffisants dans le contexte africain, où il existe un besoin critique de modèles efficaces, accessibles et localement pertinents, même en présence de contraintes significatives en termes de calcul et de données. Cet article présente InkubaLM, un petit modèle linguistique avec 0,4 milliard de paramètres, qui atteint des performances comparables à des modèles avec des comptes de paramètres beaucoup plus importants et des données d'entraînement plus étendues sur des tâches telles que la traduction automatique, les questions-réponses, AfriMMLU et la tâche AfriXnli. Notamment, InkubaLM surpasse de nombreux modèles plus grands dans l'analyse de sentiment et démontre une remarquable cohérence à travers plusieurs langues. Ce travail représente une avancée cruciale en remettant en question le paradigme conventionnel selon lequel les modèles linguistiques efficaces doivent reposer sur des ressources substantielles. Notre modèle et nos ensembles de données sont disponibles publiquement à l'adresse \url{https://huggingface.co/lelapa} pour encourager la recherche et le développement sur les langues à faibles ressources.
English
High-resource language models often fall short in the African context, where
there is a critical need for models that are efficient, accessible, and locally
relevant, even amidst significant computing and data constraints. This paper
introduces InkubaLM, a small language model with 0.4 billion parameters, which
achieves performance comparable to models with significantly larger parameter
counts and more extensive training data on tasks such as machine translation,
question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM
outperforms many larger models in sentiment analysis and demonstrates
remarkable consistency across multiple languages. This work represents a
pivotal advancement in challenging the conventional paradigm that effective
language models must rely on substantial resources. Our model and datasets are
publicly available \url{https://huggingface.co/lelapa} to encourage
research and development on low-resource languages.Summary
AI-Generated Summary