Kuwain 1.5B: 言語注入によるアラビア語SLM
Kuwain 1.5B: An Arabic SLM via Language Injection
April 21, 2025
著者: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI
要旨
既存のモデルに新たな知識を組み込むことは、AI開発において重要な側面です。本論文では、大規模言語モデル(LLM)に新しい言語を統合するための新規手法を紹介します。私たちのアプローチは、既存のLLMに未知のターゲット言語を組み込むことに成功し、その過程でモデルが持つ既存の知識を損なうことなく実現しました。私たちは、主に英語で訓練された小規模なオープンソースモデルにアラビア語を注入し、15億パラメータの小さなモデル「Kuwain」を訓練しました。この手法により、アラビア語のパフォーマンスが平均8%向上し、さまざまなベンチマークで改善が見られました。同時に、モデルの既存の知識を最小限の元のモデルのデータで保持することに成功しました。これは、英語とアラビア語の両方で包括的なモデルを訓練するためのコスト効率の良い代替手段を提供します。結果は、大規模な再訓練やリソース集約的なプロセスを必要とせずに、効率的かつターゲットを絞った言語モデルの拡張の可能性を示しています。
English
Enhancing existing models with new knowledge is a crucial aspect of AI
development. This paper introduces a novel method for integrating a new
language into a large language model (LLM). Our approach successfully
incorporates a previously unseen target language into an existing LLM without
compromising its prior knowledge. We trained a tiny model with 1.5 billion
parameters named Kuwain by injecting the Arabic language into a small
open-source model mainly trained in English. Our method demonstrates
significant improvements in Arabic language performance, with an average 8%
improvement across various benchmarks, while retaining the model's existing
knowledge with a minimum amount of the original model's data. This offers a
cost-effective alternative to training a comprehensive model in both English
and Arabic. The results highlight the potential for efficient, targeted
language model expansion without extensive retraining or resource-intensive
processes.Summary
AI-Generated Summary