ChatPaper.aiChatPaper

ИнкубаЛМ: Небольшая языковая модель для языков Африки с недостаточными ресурсами

InkubaLM: A small language model for low-resource African languages

August 30, 2024
Авторы: Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
cs.AI

Аннотация

Языковые модели с высокими ресурсами часто не соответствуют африканскому контексту, где существует критическая необходимость в моделях, которые эффективны, доступны и местно актуальны, даже при значительных ограничениях вычислительных мощностей и данных. В данной статье представлена InkubaLM - небольшая языковая модель с 0,4 миллиарда параметров, которая достигает производительности, сравнимой с моделями с значительно большим количеством параметров и более обширными данными обучения на задачах, таких как машинный перевод, вопросно-ответные системы, AfriMMLU и задача AfriXnli. Заметно, что InkubaLM превосходит многие более крупные модели в анализе тональности и демонстрирует замечательную последовательность на нескольких языках. Эта работа представляет собой значительное продвижение в вызове традиционной парадигмы, согласно которой эффективные языковые модели должны полагаться на значительные ресурсы. Наша модель и наборы данных доступны публично по адресу \url{https://huggingface.co/lelapa} для поощрения исследований и разработок в области языков с ограниченными ресурсами.
English
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available \url{https://huggingface.co/lelapa} to encourage research and development on low-resource languages.

Summary

AI-Generated Summary

PDF142November 16, 2024