Kuwain 1.5B: Ein arabisches SLM durch Sprachinjektion
Kuwain 1.5B: An Arabic SLM via Language Injection
April 21, 2025
Autoren: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI
Zusammenfassung
Die Erweiterung bestehender Modelle mit neuem Wissen ist ein entscheidender Aspekt der KI-Entwicklung. In diesem Artikel stellen wir eine neuartige Methode zur Integration einer neuen Sprache in ein großes Sprachmodell (LLM) vor. Unser Ansatz integriert erfolgreich eine bisher unbekannte Zielsprache in ein bestehendes LLM, ohne dessen bisheriges Wissen zu beeinträchtigen. Wir haben ein kleines Modell mit 1,5 Milliarden Parametern namens Kuwain trainiert, indem wir die arabische Sprache in ein kleines Open-Source-Modell eingefügt haben, das hauptsächlich auf Englisch trainiert wurde. Unsere Methode zeigt signifikante Verbesserungen in der Leistung der arabischen Sprache, mit einer durchschnittlichen Steigerung von 8 % über verschiedene Benchmarks hinweg, während das bestehende Wissen des Modells mit einem minimalen Anteil der ursprünglichen Modell-Daten erhalten bleibt. Dies bietet eine kosteneffiziente Alternative zum Training eines umfassenden Modells in Englisch und Arabisch. Die Ergebnisse unterstreichen das Potenzial für eine effiziente, gezielte Erweiterung von Sprachmodellen ohne umfangreiche Neuausbildung oder ressourcenintensive Prozesse.
English
Enhancing existing models with new knowledge is a crucial aspect of AI
development. This paper introduces a novel method for integrating a new
language into a large language model (LLM). Our approach successfully
incorporates a previously unseen target language into an existing LLM without
compromising its prior knowledge. We trained a tiny model with 1.5 billion
parameters named Kuwain by injecting the Arabic language into a small
open-source model mainly trained in English. Our method demonstrates
significant improvements in Arabic language performance, with an average 8%
improvement across various benchmarks, while retaining the model's existing
knowledge with a minimum amount of the original model's data. This offers a
cost-effective alternative to training a comprehensive model in both English
and Arabic. The results highlight the potential for efficient, targeted
language model expansion without extensive retraining or resource-intensive
processes.Summary
AI-Generated Summary