Sadeed: Progressi nella Diacritizzazione dell'Arabo Attraverso Modelli Linguistici di Piccole Dimensioni
Sadeed: Advancing Arabic Diacritization Through Small Language Model
April 30, 2025
Autori: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI
Abstract
La diacritizzazione del testo arabo rimane una sfida persistente nell'elaborazione del linguaggio naturale a causa della ricchezza morfologica della lingua. In questo articolo, presentiamo Sadeed, un approccio innovativo basato su un modello linguistico decoder-only fine-tuned, adattato da Kuwain 1.5B Hennara et al. [2025], un modello compatto originariamente addestrato su corpora arabi diversificati. Sadeed è stato fine-tuned su dataset diacritizzati di alta qualità, accuratamente curati e costruiti attraverso una rigorosa pipeline di pulizia e normalizzazione dei dati. Nonostante l'utilizzo di risorse computazionali modeste, Sadeed ottiene risultati competitivi rispetto ai grandi modelli linguistici proprietari e supera i modelli tradizionali addestrati su domini simili. Inoltre, evidenziamo le principali limitazioni nelle pratiche attuali di benchmarking per la diacritizzazione araba. Per affrontare questi problemi, introduciamo SadeedDiac-25, un nuovo benchmark progettato per consentire una valutazione più equa e completa su diversi generi testuali e livelli di complessità. Insieme, Sadeed e SadeedDiac-25 forniscono una solida base per avanzare nelle applicazioni di NLP arabo, inclusi la traduzione automatica, la sintesi vocale e gli strumenti per l'apprendimento della lingua.
English
Arabic text diacritization remains a persistent challenge in natural language
processing due to the language's morphological richness. In this paper, we
introduce Sadeed, a novel approach based on a fine-tuned decoder-only language
model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model
originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully
curated, high-quality diacritized datasets, constructed through a rigorous
data-cleaning and normalization pipeline. Despite utilizing modest
computational resources, Sadeed achieves competitive results compared to
proprietary large language models and outperforms traditional models trained on
similar domains. Additionally, we highlight key limitations in current
benchmarking practices for Arabic diacritization. To address these issues, we
introduce SadeedDiac-25, a new benchmark designed to enable fairer and more
comprehensive evaluation across diverse text genres and complexity levels.
Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing
Arabic NLP applications, including machine translation, text-to-speech, and
language learning tools.