ChatPaper.aiChatPaper

Kuwain 1.5B: Um Modelo de Linguagem Simples em Árabe via Injeção de Linguagem

Kuwain 1.5B: An Arabic SLM via Language Injection

April 21, 2025
Autores: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI

Resumo

Aprimorar modelos existentes com novos conhecimentos é um aspecto crucial do desenvolvimento de IA. Este artigo introduz um método inovador para integrar um novo idioma em um modelo de linguagem de grande escala (LLM, na sigla em inglês). Nossa abordagem incorpora com sucesso um idioma-alvo previamente desconhecido em um LLM existente sem comprometer seu conhecimento prévio. Treinamos um modelo compacto com 1,5 bilhão de parâmetros, chamado Kuwain, ao injetar o idioma árabe em um pequeno modelo de código aberto treinado principalmente em inglês. Nosso método demonstra melhorias significativas no desempenho do idioma árabe, com um aumento médio de 8% em vários benchmarks, enquanto mantém o conhecimento existente do modelo com uma quantidade mínima dos dados originais. Isso oferece uma alternativa econômica ao treinamento de um modelo abrangente em inglês e árabe. Os resultados destacam o potencial para uma expansão eficiente e direcionada de modelos de linguagem sem a necessidade de retreinamento extensivo ou processos intensivos em recursos.
English
Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model's existing knowledge with a minimum amount of the original model's data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

Summary

AI-Generated Summary

PDF1137April 23, 2025