ChatPaper.aiChatPaper

Kuwain 1.5B: Арабская языковая модель малого масштаба через инъекцию языка

Kuwain 1.5B: An Arabic SLM via Language Injection

April 21, 2025
Авторы: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI

Аннотация

Улучшение существующих моделей за счет новых знаний является важным аспектом развития искусственного интеллекта. В данной статье представлен новый метод интеграции нового языка в крупную языковую модель (LLM). Наш подход успешно внедряет ранее неизвестный целевой язык в существующую LLM, не нарушая ее предыдущих знаний. Мы обучили небольшую модель с 1,5 миллиардами параметров, названную Kuwain, путем внедрения арабского языка в небольшую модель с открытым исходным кодом, в основном обученную на английском языке. Наш метод демонстрирует значительное улучшение производительности в арабском языке, со средним улучшением на 8% по различным тестам, при этом сохраняя существующие знания модели с минимальным использованием данных исходной модели. Это предлагает экономически эффективную альтернативу обучению всеобъемлющей модели на английском и арабском языках. Результаты подчеркивают потенциал для эффективного и целенаправленного расширения языковых моделей без необходимости масштабного переобучения или ресурсоемких процессов.
English
Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model's existing knowledge with a minimum amount of the original model's data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

Summary

AI-Generated Summary

PDF1137April 23, 2025