ChatPaper.aiChatPaper

InkubaLM: Um pequeno modelo de linguagem para idiomas africanos de baixos recursos

InkubaLM: A small language model for low-resource African languages

August 30, 2024
Autores: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI

Resumo

Os modelos de linguagem de alta capacidade frequentemente não atendem às necessidades do contexto africano, onde há uma necessidade crítica de modelos eficientes, acessíveis e localmente relevantes, mesmo diante de significativas restrições de computação e dados. Este artigo apresenta o InkubaLM, um pequeno modelo de linguagem com 0,4 bilhões de parâmetros, que alcança desempenho comparável a modelos com contagens de parâmetros significativamente maiores e dados de treinamento mais extensos em tarefas como tradução automática, question-answering, AfriMMLU e a tarefa AfriXnli. Notavelmente, o InkubaLM supera muitos modelos maiores na análise de sentimentos e demonstra uma notável consistência em múltiplos idiomas. Este trabalho representa um avanço fundamental ao desafiar o paradigma convencional de que modelos de linguagem eficazes devem depender de recursos substanciais. Nosso modelo e conjuntos de dados estão publicamente disponíveis em \url{https://huggingface.co/lelapa} para incentivar a pesquisa e desenvolvimento em idiomas de baixos recursos.
English
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available \url{https://huggingface.co/lelapa} to encourage research and development on low-resource languages.
PDF142November 16, 2024