ChatPaper.aiChatPaper

Kuwain 1.5B: Ein arabisches SLM durch Sprachinjektion

Kuwain 1.5B: An Arabic SLM via Language Injection

April 21, 2025
Autoren: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI

Zusammenfassung

Die Erweiterung bestehender Modelle mit neuem Wissen ist ein entscheidender Aspekt der KI-Entwicklung. In diesem Artikel stellen wir eine neuartige Methode zur Integration einer neuen Sprache in ein großes Sprachmodell (LLM) vor. Unser Ansatz integriert erfolgreich eine bisher unbekannte Zielsprache in ein bestehendes LLM, ohne dessen bisheriges Wissen zu beeinträchtigen. Wir haben ein kleines Modell mit 1,5 Milliarden Parametern namens Kuwain trainiert, indem wir die arabische Sprache in ein kleines Open-Source-Modell eingefügt haben, das hauptsächlich auf Englisch trainiert wurde. Unsere Methode zeigt signifikante Verbesserungen in der Leistung der arabischen Sprache, mit einer durchschnittlichen Steigerung von 8 % über verschiedene Benchmarks hinweg, während das bestehende Wissen des Modells mit einem minimalen Anteil der ursprünglichen Modell-Daten erhalten bleibt. Dies bietet eine kosteneffiziente Alternative zum Training eines umfassenden Modells in Englisch und Arabisch. Die Ergebnisse unterstreichen das Potenzial für eine effiziente, gezielte Erweiterung von Sprachmodellen ohne umfangreiche Neuausbildung oder ressourcenintensive Prozesse.
English
Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model's existing knowledge with a minimum amount of the original model's data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

Summary

AI-Generated Summary

PDF1137April 23, 2025