Sadeed: Avanzando en la Diacritización del Árabe mediante Modelos de Lenguaje PequeñosSadeed: Advancing Arabic Diacritization Through Small Language Model
La diacritización de textos en árabe sigue siendo un desafío persistente en el procesamiento del lenguaje natural debido a la riqueza morfológica del idioma. En este artículo, presentamos Sadeed, un enfoque novedoso basado en un modelo de lenguaje de solo decodificador ajustado finamente, adaptado de Kuwain 1.5B Hennara et al. [2025], un modelo compacto originalmente entrenado en diversos corpus árabes. Sadeed se ajusta finamente en conjuntos de datos diacritizados de alta calidad, cuidadosamente seleccionados y construidos mediante un riguroso proceso de limpieza y normalización de datos. A pesar de utilizar recursos computacionales modestos, Sadeed logra resultados competitivos en comparación con modelos de lenguaje grandes propietarios y supera a los modelos tradicionales entrenados en dominios similares. Además, destacamos limitaciones clave en las prácticas actuales de evaluación comparativa para la diacritización del árabe. Para abordar estos problemas, presentamos SadeedDiac-25, un nuevo punto de referencia diseñado para permitir una evaluación más justa y completa en diversos géneros de texto y niveles de complejidad. Juntos, Sadeed y SadeedDiac-25 proporcionan una base sólida para avanzar en las aplicaciones de PNL en árabe, incluyendo la traducción automática, la conversión de texto a voz y las herramientas de aprendizaje de idiomas.