Kuwain 1.5B: Арабская языковая модель малого масштаба через инъекцию языкаKuwain 1.5B: An Arabic SLM via Language Injection
Улучшение существующих моделей за счет новых знаний является важным аспектом развития искусственного интеллекта. В данной статье представлен новый метод интеграции нового языка в крупную языковую модель (LLM). Наш подход успешно внедряет ранее неизвестный целевой язык в существующую LLM, не нарушая ее предыдущих знаний. Мы обучили небольшую модель с 1,5 миллиардами параметров, названную Kuwain, путем внедрения арабского языка в небольшую модель с открытым исходным кодом, в основном обученную на английском языке. Наш метод демонстрирует значительное улучшение производительности в арабском языке, со средним улучшением на 8% по различным тестам, при этом сохраняя существующие знания модели с минимальным использованием данных исходной модели. Это предлагает экономически эффективную альтернативу обучению всеобъемлющей модели на английском и арабском языках. Результаты подчеркивают потенциал для эффективного и целенаправленного расширения языковых моделей без необходимости масштабного переобучения или ресурсоемких процессов.