ChatPaper.aiChatPaper

Sadeed : Faire progresser la diacritisation de l'arabe grâce à un petit modèle de langage

Sadeed: Advancing Arabic Diacritization Through Small Language Model

April 30, 2025
Auteurs: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI

Résumé

La diacritisation des textes arabes demeure un défi persistant en traitement automatique des langues, en raison de la richesse morphologique de cette langue. Dans cet article, nous présentons Sadeed, une approche novatrice basée sur un modèle de langage à décodeur unique, affiné à partir de Kuwain 1.5B Hennara et al. [2025], un modèle compact initialement entraîné sur des corpus arabes variés. Sadeed est affiné sur des ensembles de données diacritisées de haute qualité, soigneusement sélectionnés et construits grâce à un pipeline rigoureux de nettoyage et de normalisation des données. Malgré l'utilisation de ressources computationnelles modestes, Sadeed obtient des résultats compétitifs par rapport aux grands modèles de langage propriétaires et surpasse les modèles traditionnels entraînés sur des domaines similaires. Par ailleurs, nous mettons en lumière les principales limites des pratiques actuelles d'évaluation pour la diacritisation arabe. Pour remédier à ces problèmes, nous introduisons SadeedDiac-25, un nouveau benchmark conçu pour permettre une évaluation plus équitable et plus exhaustive à travers divers genres textuels et niveaux de complexité. Ensemble, Sadeed et SadeedDiac-25 offrent une base solide pour faire progresser les applications du traitement automatique de la langue arabe, notamment la traduction automatique, la synthèse vocale et les outils d'apprentissage des langues.
English
Arabic text diacritization remains a persistent challenge in natural language processing due to the language's morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.
PDF592May 4, 2025