Kuwain 1.5B: Ein arabisches SLM durch SprachinjektionKuwain 1.5B: An Arabic SLM via Language Injection
Die Erweiterung bestehender Modelle mit neuem Wissen ist ein entscheidender Aspekt der KI-Entwicklung. In diesem Artikel stellen wir eine neuartige Methode zur Integration einer neuen Sprache in ein großes Sprachmodell (LLM) vor. Unser Ansatz integriert erfolgreich eine bisher unbekannte Zielsprache in ein bestehendes LLM, ohne dessen bisheriges Wissen zu beeinträchtigen. Wir haben ein kleines Modell mit 1,5 Milliarden Parametern namens Kuwain trainiert, indem wir die arabische Sprache in ein kleines Open-Source-Modell eingefügt haben, das hauptsächlich auf Englisch trainiert wurde. Unsere Methode zeigt signifikante Verbesserungen in der Leistung der arabischen Sprache, mit einer durchschnittlichen Steigerung von 8 % über verschiedene Benchmarks hinweg, während das bestehende Wissen des Modells mit einem minimalen Anteil der ursprünglichen Modell-Daten erhalten bleibt. Dies bietet eine kosteneffiziente Alternative zum Training eines umfassenden Modells in Englisch und Arabisch. Die Ergebnisse unterstreichen das Potenzial für eine effiziente, gezielte Erweiterung von Sprachmodellen ohne umfangreiche Neuausbildung oder ressourcenintensive Prozesse.