ChatPaper.aiChatPaper

Kuwain 1.5B : Un modèle de langage léger en arabe via l'injection linguistique

Kuwain 1.5B: An Arabic SLM via Language Injection

April 21, 2025
Auteurs: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI

Résumé

L'amélioration des modèles existants avec de nouvelles connaissances constitue un aspect crucial du développement de l'IA. Cet article présente une méthode novatrice pour intégrer une nouvelle langue dans un grand modèle de langage (LLM). Notre approche permet d'incorporer avec succès une langue cible précédemment inconnue dans un LLM existant sans compromettre ses connaissances antérieures. Nous avons entraîné un petit modèle de 1,5 milliard de paramètres, nommé Kuwain, en injectant la langue arabe dans un modèle open-source principalement entraîné en anglais. Notre méthode démontre des améliorations significatives dans les performances en arabe, avec une augmentation moyenne de 8 % sur divers benchmarks, tout en conservant les connaissances existantes du modèle avec une quantité minimale de données du modèle original. Cela offre une alternative économique à l'entraînement d'un modèle complet en anglais et en arabe. Les résultats mettent en évidence le potentiel d'une expansion ciblée et efficace des modèles de langage sans nécessiter de réentraînement extensif ou de processus gourmands en ressources.
English
Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model's existing knowledge with a minimum amount of the original model's data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

Summary

AI-Generated Summary

PDF1137April 23, 2025