Sadeed: Avanzando en la Diacritización del Árabe mediante Modelos de Lenguaje Pequeños
Sadeed: Advancing Arabic Diacritization Through Small Language Model
April 30, 2025
Autores: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI
Resumen
La diacritización de textos en árabe sigue siendo un desafío persistente en el procesamiento del lenguaje natural debido a la riqueza morfológica del idioma. En este artículo, presentamos Sadeed, un enfoque novedoso basado en un modelo de lenguaje de solo decodificador ajustado finamente, adaptado de Kuwain 1.5B Hennara et al. [2025], un modelo compacto originalmente entrenado en diversos corpus árabes. Sadeed se ajusta finamente en conjuntos de datos diacritizados de alta calidad, cuidadosamente seleccionados y construidos mediante un riguroso proceso de limpieza y normalización de datos. A pesar de utilizar recursos computacionales modestos, Sadeed logra resultados competitivos en comparación con modelos de lenguaje grandes propietarios y supera a los modelos tradicionales entrenados en dominios similares. Además, destacamos limitaciones clave en las prácticas actuales de evaluación comparativa para la diacritización del árabe. Para abordar estos problemas, presentamos SadeedDiac-25, un nuevo punto de referencia diseñado para permitir una evaluación más justa y completa en diversos géneros de texto y niveles de complejidad. Juntos, Sadeed y SadeedDiac-25 proporcionan una base sólida para avanzar en las aplicaciones de PNL en árabe, incluyendo la traducción automática, la conversión de texto a voz y las herramientas de aprendizaje de idiomas.
English
Arabic text diacritization remains a persistent challenge in natural language
processing due to the language's morphological richness. In this paper, we
introduce Sadeed, a novel approach based on a fine-tuned decoder-only language
model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model
originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully
curated, high-quality diacritized datasets, constructed through a rigorous
data-cleaning and normalization pipeline. Despite utilizing modest
computational resources, Sadeed achieves competitive results compared to
proprietary large language models and outperforms traditional models trained on
similar domains. Additionally, we highlight key limitations in current
benchmarking practices for Arabic diacritization. To address these issues, we
introduce SadeedDiac-25, a new benchmark designed to enable fairer and more
comprehensive evaluation across diverse text genres and complexity levels.
Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing
Arabic NLP applications, including machine translation, text-to-speech, and
language learning tools.