InkubaLM: Een klein taalmodel voor Afrikaanse talen met beperkte bronnen
InkubaLM: A small language model for low-resource African languages
August 30, 2024
Auteurs: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI
Samenvatting
Taalmodelen met veel bronnen schieten vaak tekort in de Afrikaanse context, waar er een dringende behoefte is aan modellen die efficiënt, toegankelijk en lokaal relevant zijn, zelfs bij aanzienlijke beperkingen in rekenkracht en data. Dit artikel introduceert InkubaLM, een klein taalmodel met 0,4 miljard parameters, dat prestaties levert die vergelijkbaar zijn met modellen met aanzienlijk meer parameters en uitgebreidere trainingsdata op taken zoals machinaal vertalen, vraag-antwoord, AfriMMLU en de AfriXnli-taak. Opmerkelijk is dat InkubaLM veel grotere modellen overtreft in sentimentanalyse en opmerkelijke consistentie vertoont over meerdere talen. Dit werk vertegenwoordigt een cruciale vooruitgang in het uitdagen van het conventionele paradigma dat effectieve taalmodelen moeten steunen op aanzienlijke bronnen. Ons model en datasets zijn publiekelijk beschikbaar op \url{https://huggingface.co/lelapa} om onderzoek en ontwikkeling van talen met beperkte bronnen aan te moedigen.
English
High-resource language models often fall short in the African context, where
there is a critical need for models that are efficient, accessible, and locally
relevant, even amidst significant computing and data constraints. This paper
introduces InkubaLM, a small language model with 0.4 billion parameters, which
achieves performance comparable to models with significantly larger parameter
counts and more extensive training data on tasks such as machine translation,
question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM
outperforms many larger models in sentiment analysis and demonstrates
remarkable consistency across multiple languages. This work represents a
pivotal advancement in challenging the conventional paradigm that effective
language models must rely on substantial resources. Our model and datasets are
publicly available \url{https://huggingface.co/lelapa} to encourage
research and development on low-resource languages.Summary
AI-Generated Summary