Kuwain 1.5B: Un modelo de lenguaje pequeño en árabe mediante inyección lingüística
Kuwain 1.5B: An Arabic SLM via Language Injection
April 21, 2025
Autores: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI
Resumen
Mejorar los modelos existentes con nuevos conocimientos es un aspecto crucial del desarrollo de la IA. Este artículo presenta un método novedoso para integrar un nuevo idioma en un modelo de lenguaje grande (LLM, por sus siglas en inglés). Nuestro enfoque incorpora con éxito un idioma objetivo previamente no visto en un LLM existente sin comprometer su conocimiento previo. Entrenamos un modelo pequeño con 1.500 millones de parámetros, llamado Kuwain, inyectando el idioma árabe en un modelo de código abierto principalmente entrenado en inglés. Nuestro método demuestra mejoras significativas en el rendimiento del idioma árabe, con un aumento promedio del 8% en varios puntos de referencia, mientras se conserva el conocimiento existente del modelo con una cantidad mínima de los datos originales. Esto ofrece una alternativa rentable al entrenamiento de un modelo completo en inglés y árabe. Los resultados destacan el potencial para una expansión eficiente y dirigida de modelos de lenguaje sin necesidad de un reentrenamiento extenso o procesos intensivos en recursos.
English
Enhancing existing models with new knowledge is a crucial aspect of AI
development. This paper introduces a novel method for integrating a new
language into a large language model (LLM). Our approach successfully
incorporates a previously unseen target language into an existing LLM without
compromising its prior knowledge. We trained a tiny model with 1.5 billion
parameters named Kuwain by injecting the Arabic language into a small
open-source model mainly trained in English. Our method demonstrates
significant improvements in Arabic language performance, with an average 8%
improvement across various benchmarks, while retaining the model's existing
knowledge with a minimum amount of the original model's data. This offers a
cost-effective alternative to training a comprehensive model in both English
and Arabic. The results highlight the potential for efficient, targeted
language model expansion without extensive retraining or resource-intensive
processes.Summary
AI-Generated Summary