Sadeed: Fortschritt in der arabischen Diakritisierung durch kleine Sprachmodelle

papers.abstract

Die Diakritisierung arabischer Texte bleibt eine anhaltende Herausforderung in der natürlichen Sprachverarbeitung aufgrund des morphologischen Reichtums der Sprache. In diesem Artikel stellen wir Sadeed vor, einen neuartigen Ansatz, der auf einem feinabgestimmten, dekodierer-basierten Sprachmodell basiert, das von Kuwain 1.5B Hennara et al. [2025] adaptiert wurde, einem kompakten Modell, das ursprünglich auf diversen arabischen Korpora trainiert wurde. Sadeed wird auf sorgfältig kuratierten, hochwertigen diakritisierten Datensätzen feinabgestimmt, die durch eine rigorose Datenbereinigungs- und Normalisierungspipeline erstellt wurden. Trotz der Nutzung bescheidener Rechenressourcen erzielt Sadeed wettbewerbsfähige Ergebnisse im Vergleich zu proprietären großen Sprachmodellen und übertrifft traditionelle Modelle, die auf ähnlichen Domänen trainiert wurden. Zudem beleuchten wir wesentliche Einschränkungen in den aktuellen Benchmarking-Praktiken für die arabische Diakritisierung. Um diese Probleme zu adressieren, führen wir SadeedDiac-25 ein, einen neuen Benchmark, der eine fairere und umfassendere Bewertung über verschiedene Textgenres und Komplexitätsstufen hinweg ermöglicht. Zusammen bieten Sadeed und SadeedDiac-25 eine robuste Grundlage für die Weiterentwicklung von Anwendungen der arabischen NLP, einschließlich maschineller Übersetzung, Text-zu-Sprache und Sprachlernwerkzeugen.

English

Arabic text diacritization remains a persistent challenge in natural language processing due to the language's morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.

Sadeed: Fortschritt in der arabischen Diakritisierung durch kleine Sprachmodelle

Sadeed: Advancing Arabic Diacritization Through Small Language Model

papers.abstract

Support