ChatPaper.aiChatPaper

InkubaLM: Ein kleines Sprachmodell für wenig ressourcenreiche afrikanische Sprachen

InkubaLM: A small language model for low-resource African languages

August 30, 2024
Autoren: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI

Zusammenfassung

Hochleistungs-Sprachmodelle stoßen oft an ihre Grenzen im afrikanischen Kontext, wo ein dringender Bedarf an Modellen besteht, die effizient, zugänglich und lokal relevant sind, selbst unter erheblichen Rechen- und Datenbeschränkungen. Diese Arbeit stellt InkubaLM vor, ein kleines Sprachmodell mit 0,4 Milliarden Parametern, das eine Leistung erzielt, die mit Modellen vergleichbar ist, die über deutlich größere Parametermengen und umfangreichere Trainingsdaten verfügen, bei Aufgaben wie maschineller Übersetzung, Frage-Antwort, AfriMMLU und der AfriXnli-Aufgabe. InkubaLM übertrifft viele größere Modelle signifikant in der Stimmungsanalyse und zeigt bemerkenswerte Konsistenz über mehrere Sprachen hinweg. Diese Arbeit stellt einen entscheidenden Fortschritt dar, indem sie das konventionelle Paradigma in Frage stellt, dass effektive Sprachmodelle auf erhebliche Ressourcen angewiesen sein müssen. Unser Modell und unsere Datensätze sind öffentlich verfügbar unter \url{https://huggingface.co/lelapa}, um Forschung und Entwicklung zu niedrig-ressourcen Sprachen zu fördern.
English
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available \url{https://huggingface.co/lelapa} to encourage research and development on low-resource languages.

Summary

AI-Generated Summary

PDF142November 16, 2024