ChatPaper.aiChatPaper

InkubaLM: Un piccolo modello linguistico per lingue africane a bassa risorsa

InkubaLM: A small language model for low-resource African languages

August 30, 2024
Autori: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI

Abstract

I modelli linguistici ad alta risorsa spesso non sono all'altezza nel contesto africano, dove c'è un bisogno critico di modelli efficienti, accessibili e localmente rilevanti, anche in presenza di significativi vincoli computazionali e di dati. Questo articolo introduce InkubaLM, un piccolo modello linguistico con 0,4 miliardi di parametri, che raggiunge prestazioni paragonabili a modelli con conteggi di parametri significativamente più grandi e dati di addestramento più estesi su compiti come la traduzione automatica, il question-answering, AfriMMLU e il compito AfriXnli. In particolare, InkubaLM supera molti modelli più grandi nell'analisi del sentiment e dimostra una notevole coerenza tra diverse lingue. Questo lavoro rappresenta un avanzamento cruciale nel mettere in discussione il paradigma convenzionale che i modelli linguistici efficaci debbano fare affidamento su risorse sostanziali. Il nostro modello e i dataset sono disponibili pubblicamente all'indirizzo \url{https://huggingface.co/lelapa} per incoraggiare la ricerca e lo sviluppo sulle lingue a bassa risorsa.
English
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available \url{https://huggingface.co/lelapa} to encourage research and development on low-resource languages.
PDF142November 16, 2024