Sadeed: Fortschritt in der arabischen Diakritisierung durch kleine Sprachmodelle
Sadeed: Advancing Arabic Diacritization Through Small Language Model
April 30, 2025
Autoren: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI
Zusammenfassung
Die Diakritisierung arabischer Texte bleibt eine anhaltende Herausforderung in der natürlichen Sprachverarbeitung aufgrund des morphologischen Reichtums der Sprache. In diesem Artikel stellen wir Sadeed vor, einen neuartigen Ansatz, der auf einem feinabgestimmten, dekodierer-basierten Sprachmodell basiert, das von Kuwain 1.5B Hennara et al. [2025] adaptiert wurde, einem kompakten Modell, das ursprünglich auf diversen arabischen Korpora trainiert wurde. Sadeed wird auf sorgfältig kuratierten, hochwertigen diakritisierten Datensätzen feinabgestimmt, die durch eine rigorose Datenbereinigungs- und Normalisierungspipeline erstellt wurden. Trotz der Nutzung bescheidener Rechenressourcen erzielt Sadeed wettbewerbsfähige Ergebnisse im Vergleich zu proprietären großen Sprachmodellen und übertrifft traditionelle Modelle, die auf ähnlichen Domänen trainiert wurden. Zudem beleuchten wir wesentliche Einschränkungen in den aktuellen Benchmarking-Praktiken für die arabische Diakritisierung. Um diese Probleme zu adressieren, führen wir SadeedDiac-25 ein, einen neuen Benchmark, der eine fairere und umfassendere Bewertung über verschiedene Textgenres und Komplexitätsstufen hinweg ermöglicht. Zusammen bieten Sadeed und SadeedDiac-25 eine robuste Grundlage für die Weiterentwicklung von Anwendungen der arabischen NLP, einschließlich maschineller Übersetzung, Text-zu-Sprache und Sprachlernwerkzeugen.
English
Arabic text diacritization remains a persistent challenge in natural language
processing due to the language's morphological richness. In this paper, we
introduce Sadeed, a novel approach based on a fine-tuned decoder-only language
model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model
originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully
curated, high-quality diacritized datasets, constructed through a rigorous
data-cleaning and normalization pipeline. Despite utilizing modest
computational resources, Sadeed achieves competitive results compared to
proprietary large language models and outperforms traditional models trained on
similar domains. Additionally, we highlight key limitations in current
benchmarking practices for Arabic diacritization. To address these issues, we
introduce SadeedDiac-25, a new benchmark designed to enable fairer and more
comprehensive evaluation across diverse text genres and complexity levels.
Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing
Arabic NLP applications, including machine translation, text-to-speech, and
language learning tools.