Kuwain 1.5B : Un modèle de langage léger en arabe via l'injection linguistiqueKuwain 1.5B: An Arabic SLM via Language Injection
L'amélioration des modèles existants avec de nouvelles connaissances constitue un aspect crucial du développement de l'IA. Cet article présente une méthode novatrice pour intégrer une nouvelle langue dans un grand modèle de langage (LLM). Notre approche permet d'incorporer avec succès une langue cible précédemment inconnue dans un LLM existant sans compromettre ses connaissances antérieures. Nous avons entraîné un petit modèle de 1,5 milliard de paramètres, nommé Kuwain, en injectant la langue arabe dans un modèle open-source principalement entraîné en anglais. Notre méthode démontre des améliorations significatives dans les performances en arabe, avec une augmentation moyenne de 8 % sur divers benchmarks, tout en conservant les connaissances existantes du modèle avec une quantité minimale de données du modèle original. Cela offre une alternative économique à l'entraînement d'un modèle complet en anglais et en arabe. Les résultats mettent en évidence le potentiel d'une expansion ciblée et efficace des modèles de langage sans nécessiter de réentraînement extensif ou de processus gourmands en ressources.