ChatPaper.aiChatPaper

InkubaLM: Een klein taalmodel voor Afrikaanse talen met beperkte bronnen

InkubaLM: A small language model for low-resource African languages

August 30, 2024
Auteurs: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI

Samenvatting

Taalmodelen met veel bronnen schieten vaak tekort in de Afrikaanse context, waar er een dringende behoefte is aan modellen die efficiënt, toegankelijk en lokaal relevant zijn, zelfs bij aanzienlijke beperkingen in rekenkracht en data. Dit artikel introduceert InkubaLM, een klein taalmodel met 0,4 miljard parameters, dat prestaties levert die vergelijkbaar zijn met modellen met aanzienlijk meer parameters en uitgebreidere trainingsdata op taken zoals machinaal vertalen, vraag-antwoord, AfriMMLU en de AfriXnli-taak. Opmerkelijk is dat InkubaLM veel grotere modellen overtreft in sentimentanalyse en opmerkelijke consistentie vertoont over meerdere talen. Dit werk vertegenwoordigt een cruciale vooruitgang in het uitdagen van het conventionele paradigma dat effectieve taalmodelen moeten steunen op aanzienlijke bronnen. Ons model en datasets zijn publiekelijk beschikbaar op \url{https://huggingface.co/lelapa} om onderzoek en ontwikkeling van talen met beperkte bronnen aan te moedigen.
English
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available \url{https://huggingface.co/lelapa} to encourage research and development on low-resource languages.

Summary

AI-Generated Summary

PDF142November 16, 2024