Sadeed: Fortschritt in der arabischen Diakritisierung durch kleine SprachmodelleSadeed: Advancing Arabic Diacritization Through Small Language Model
Die Diakritisierung arabischer Texte bleibt eine anhaltende Herausforderung in der natürlichen Sprachverarbeitung aufgrund des morphologischen Reichtums der Sprache. In diesem Artikel stellen wir Sadeed vor, einen neuartigen Ansatz, der auf einem feinabgestimmten, dekodierer-basierten Sprachmodell basiert, das von Kuwain 1.5B Hennara et al. [2025] adaptiert wurde, einem kompakten Modell, das ursprünglich auf diversen arabischen Korpora trainiert wurde. Sadeed wird auf sorgfältig kuratierten, hochwertigen diakritisierten Datensätzen feinabgestimmt, die durch eine rigorose Datenbereinigungs- und Normalisierungspipeline erstellt wurden. Trotz der Nutzung bescheidener Rechenressourcen erzielt Sadeed wettbewerbsfähige Ergebnisse im Vergleich zu proprietären großen Sprachmodellen und übertrifft traditionelle Modelle, die auf ähnlichen Domänen trainiert wurden. Zudem beleuchten wir wesentliche Einschränkungen in den aktuellen Benchmarking-Praktiken für die arabische Diakritisierung. Um diese Probleme zu adressieren, führen wir SadeedDiac-25 ein, einen neuen Benchmark, der eine fairere und umfassendere Bewertung über verschiedene Textgenres und Komplexitätsstufen hinweg ermöglicht. Zusammen bieten Sadeed und SadeedDiac-25 eine robuste Grundlage für die Weiterentwicklung von Anwendungen der arabischen NLP, einschließlich maschineller Übersetzung, Text-zu-Sprache und Sprachlernwerkzeugen.