Kuwain 1.5B : Un modèle de langage léger en arabe via l'injection linguistique
Kuwain 1.5B: An Arabic SLM via Language Injection
April 21, 2025
Auteurs: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI
Résumé
L'amélioration des modèles existants avec de nouvelles connaissances constitue un aspect crucial du développement de l'IA. Cet article présente une méthode novatrice pour intégrer une nouvelle langue dans un grand modèle de langage (LLM). Notre approche permet d'incorporer avec succès une langue cible précédemment inconnue dans un LLM existant sans compromettre ses connaissances antérieures. Nous avons entraîné un petit modèle de 1,5 milliard de paramètres, nommé Kuwain, en injectant la langue arabe dans un modèle open-source principalement entraîné en anglais. Notre méthode démontre des améliorations significatives dans les performances en arabe, avec une augmentation moyenne de 8 % sur divers benchmarks, tout en conservant les connaissances existantes du modèle avec une quantité minimale de données du modèle original. Cela offre une alternative économique à l'entraînement d'un modèle complet en anglais et en arabe. Les résultats mettent en évidence le potentiel d'une expansion ciblée et efficace des modèles de langage sans nécessiter de réentraînement extensif ou de processus gourmands en ressources.
English
Enhancing existing models with new knowledge is a crucial aspect of AI
development. This paper introduces a novel method for integrating a new
language into a large language model (LLM). Our approach successfully
incorporates a previously unseen target language into an existing LLM without
compromising its prior knowledge. We trained a tiny model with 1.5 billion
parameters named Kuwain by injecting the Arabic language into a small
open-source model mainly trained in English. Our method demonstrates
significant improvements in Arabic language performance, with an average 8%
improvement across various benchmarks, while retaining the model's existing
knowledge with a minimum amount of the original model's data. This offers a
cost-effective alternative to training a comprehensive model in both English
and Arabic. The results highlight the potential for efficient, targeted
language model expansion without extensive retraining or resource-intensive
processes.Summary
AI-Generated Summary