Kuwain 1.5B: Um Modelo de Linguagem Simples em Árabe via Injeção de Linguagem
Kuwain 1.5B: An Arabic SLM via Language Injection
April 21, 2025
Autores: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI
Resumo
Aprimorar modelos existentes com novos conhecimentos é um aspecto crucial do desenvolvimento de IA. Este artigo introduz um método inovador para integrar um novo idioma em um modelo de linguagem de grande escala (LLM, na sigla em inglês). Nossa abordagem incorpora com sucesso um idioma-alvo previamente desconhecido em um LLM existente sem comprometer seu conhecimento prévio. Treinamos um modelo compacto com 1,5 bilhão de parâmetros, chamado Kuwain, ao injetar o idioma árabe em um pequeno modelo de código aberto treinado principalmente em inglês. Nosso método demonstra melhorias significativas no desempenho do idioma árabe, com um aumento médio de 8% em vários benchmarks, enquanto mantém o conhecimento existente do modelo com uma quantidade mínima dos dados originais. Isso oferece uma alternativa econômica ao treinamento de um modelo abrangente em inglês e árabe. Os resultados destacam o potencial para uma expansão eficiente e direcionada de modelos de linguagem sem a necessidade de retreinamento extensivo ou processos intensivos em recursos.
English
Enhancing existing models with new knowledge is a crucial aspect of AI
development. This paper introduces a novel method for integrating a new
language into a large language model (LLM). Our approach successfully
incorporates a previously unseen target language into an existing LLM without
compromising its prior knowledge. We trained a tiny model with 1.5 billion
parameters named Kuwain by injecting the Arabic language into a small
open-source model mainly trained in English. Our method demonstrates
significant improvements in Arabic language performance, with an average 8%
improvement across various benchmarks, while retaining the model's existing
knowledge with a minimum amount of the original model's data. This offers a
cost-effective alternative to training a comprehensive model in both English
and Arabic. The results highlight the potential for efficient, targeted
language model expansion without extensive retraining or resource-intensive
processes.Summary
AI-Generated Summary