Kuwain 1.5B: Um Modelo de Linguagem Simples em Árabe via Injeção de LinguagemKuwain 1.5B: An Arabic SLM via Language Injection
Aprimorar modelos existentes com novos conhecimentos é um aspecto crucial do desenvolvimento de IA. Este artigo introduz um método inovador para integrar um novo idioma em um modelo de linguagem de grande escala (LLM, na sigla em inglês). Nossa abordagem incorpora com sucesso um idioma-alvo previamente desconhecido em um LLM existente sem comprometer seu conhecimento prévio. Treinamos um modelo compacto com 1,5 bilhão de parâmetros, chamado Kuwain, ao injetar o idioma árabe em um pequeno modelo de código aberto treinado principalmente em inglês. Nosso método demonstra melhorias significativas no desempenho do idioma árabe, com um aumento médio de 8% em vários benchmarks, enquanto mantém o conhecimento existente do modelo com uma quantidade mínima dos dados originais. Isso oferece uma alternativa econômica ao treinamento de um modelo abrangente em inglês e árabe. Os resultados destacam o potencial para uma expansão eficiente e direcionada de modelos de linguagem sem a necessidade de retreinamento extensivo ou processos intensivos em recursos.