Sadeed : Faire progresser la diacritisation de l'arabe grâce à un petit modèle de langageSadeed: Advancing Arabic Diacritization Through Small Language Model
La diacritisation des textes arabes demeure un défi persistant en traitement automatique des langues, en raison de la richesse morphologique de cette langue. Dans cet article, nous présentons Sadeed, une approche novatrice basée sur un modèle de langage à décodeur unique, affiné à partir de Kuwain 1.5B Hennara et al. [2025], un modèle compact initialement entraîné sur des corpus arabes variés. Sadeed est affiné sur des ensembles de données diacritisées de haute qualité, soigneusement sélectionnés et construits grâce à un pipeline rigoureux de nettoyage et de normalisation des données. Malgré l'utilisation de ressources computationnelles modestes, Sadeed obtient des résultats compétitifs par rapport aux grands modèles de langage propriétaires et surpasse les modèles traditionnels entraînés sur des domaines similaires. Par ailleurs, nous mettons en lumière les principales limites des pratiques actuelles d'évaluation pour la diacritisation arabe. Pour remédier à ces problèmes, nous introduisons SadeedDiac-25, un nouveau benchmark conçu pour permettre une évaluation plus équitable et plus exhaustive à travers divers genres textuels et niveaux de complexité. Ensemble, Sadeed et SadeedDiac-25 offrent une base solide pour faire progresser les applications du traitement automatique de la langue arabe, notamment la traduction automatique, la synthèse vocale et les outils d'apprentissage des langues.