Kuwain 1.5B: Un modello linguistico semplice in arabo tramite iniezione linguistica
Kuwain 1.5B: An Arabic SLM via Language Injection
April 21, 2025
Autori: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI
Abstract
Migliorare i modelli esistenti con nuove conoscenze è un aspetto cruciale dello sviluppo dell'IA. Questo articolo introduce un metodo innovativo per integrare una nuova lingua in un modello linguistico di grandi dimensioni (LLM). Il nostro approccio incorpora con successo una lingua target precedentemente non vista in un LLM esistente senza compromettere le sue conoscenze pregresse. Abbiamo addestrato un piccolo modello da 1,5 miliardi di parametri, denominato Kuwain, iniettando la lingua araba in un modello open-source di piccole dimensioni principalmente addestrato in inglese. Il nostro metodo dimostra miglioramenti significativi nelle prestazioni della lingua araba, con un incremento medio dell'8% su vari benchmark, mantenendo al contempo le conoscenze esistenti del modello con una quantità minima di dati del modello originale. Questo offre un'alternativa economicamente vantaggiosa rispetto all'addestramento di un modello completo sia in inglese che in arabo. I risultati evidenziano il potenziale per un'espansione efficiente e mirata dei modelli linguistici senza la necessità di un riaddestramento estensivo o processi ad alto consumo di risorse.
English
Enhancing existing models with new knowledge is a crucial aspect of AI
development. This paper introduces a novel method for integrating a new
language into a large language model (LLM). Our approach successfully
incorporates a previously unseen target language into an existing LLM without
compromising its prior knowledge. We trained a tiny model with 1.5 billion
parameters named Kuwain by injecting the Arabic language into a small
open-source model mainly trained in English. Our method demonstrates
significant improvements in Arabic language performance, with an average 8%
improvement across various benchmarks, while retaining the model's existing
knowledge with a minimum amount of the original model's data. This offers a
cost-effective alternative to training a comprehensive model in both English
and Arabic. The results highlight the potential for efficient, targeted
language model expansion without extensive retraining or resource-intensive
processes.