InkubaLM: Ein kleines Sprachmodell für wenig ressourcenreiche afrikanische Sprachen
InkubaLM: A small language model for low-resource African languages
August 30, 2024
Autoren: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI
Zusammenfassung
Hochleistungs-Sprachmodelle stoßen oft an ihre Grenzen im afrikanischen Kontext, wo ein dringender Bedarf an Modellen besteht, die effizient, zugänglich und lokal relevant sind, selbst unter erheblichen Rechen- und Datenbeschränkungen. Diese Arbeit stellt InkubaLM vor, ein kleines Sprachmodell mit 0,4 Milliarden Parametern, das eine Leistung erzielt, die mit Modellen vergleichbar ist, die über deutlich größere Parametermengen und umfangreichere Trainingsdaten verfügen, bei Aufgaben wie maschineller Übersetzung, Frage-Antwort, AfriMMLU und der AfriXnli-Aufgabe. InkubaLM übertrifft viele größere Modelle signifikant in der Stimmungsanalyse und zeigt bemerkenswerte Konsistenz über mehrere Sprachen hinweg. Diese Arbeit stellt einen entscheidenden Fortschritt dar, indem sie das konventionelle Paradigma in Frage stellt, dass effektive Sprachmodelle auf erhebliche Ressourcen angewiesen sein müssen. Unser Modell und unsere Datensätze sind öffentlich verfügbar unter \url{https://huggingface.co/lelapa}, um Forschung und Entwicklung zu niedrig-ressourcen Sprachen zu fördern.
English
High-resource language models often fall short in the African context, where
there is a critical need for models that are efficient, accessible, and locally
relevant, even amidst significant computing and data constraints. This paper
introduces InkubaLM, a small language model with 0.4 billion parameters, which
achieves performance comparable to models with significantly larger parameter
counts and more extensive training data on tasks such as machine translation,
question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM
outperforms many larger models in sentiment analysis and demonstrates
remarkable consistency across multiple languages. This work represents a
pivotal advancement in challenging the conventional paradigm that effective
language models must rely on substantial resources. Our model and datasets are
publicly available \url{https://huggingface.co/lelapa} to encourage
research and development on low-resource languages.Summary
AI-Generated Summary