Sadeed: Vooruitgang in Arabische Diacritisering via Kleine Taalmodellen
Sadeed: Advancing Arabic Diacritization Through Small Language Model
April 30, 2025
Auteurs: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI
Samenvatting
Arabische tekstdiacritisering blijft een hardnekkige uitdaging in natuurlijke taalverwerking vanwege de morfologische rijkdom van de taal. In dit artikel introduceren we Sadeed, een nieuwe aanpak gebaseerd op een fijn afgestemd decoder-only taalmodel, aangepast van Kuwain 1.5B Hennara et al. [2025], een compact model dat oorspronkelijk is getraind op diverse Arabische corpora. Sadeed is fijn afgestemd op zorgvuldig samengestelde, hoogwaardige gediacritiseerde datasets, die zijn opgebouwd via een rigoureus data-cleaning en normalisatieproces. Ondanks het gebruik van bescheiden rekenbronnen, behaalt Sadeed competitieve resultaten in vergelijking met propriëtaire grote taalmodelen en overtreft het traditionele modellen die op vergelijkbare domeinen zijn getraind. Daarnaast belichten we belangrijke beperkingen in de huidige benchmarkpraktijken voor Arabische diacritisering. Om deze problemen aan te pakken, introduceren we SadeedDiac-25, een nieuwe benchmark ontworpen om een eerlijkere en meer uitgebreide evaluatie mogelijk te maken over diverse tekstgenres en complexiteitsniveaus. Samen bieden Sadeed en SadeedDiac-25 een robuuste basis voor het bevorderen van Arabische NLP-toepassingen, waaronder machinaal vertalen, tekst-naar-spraak en taal-leerhulpmiddelen.
English
Arabic text diacritization remains a persistent challenge in natural language
processing due to the language's morphological richness. In this paper, we
introduce Sadeed, a novel approach based on a fine-tuned decoder-only language
model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model
originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully
curated, high-quality diacritized datasets, constructed through a rigorous
data-cleaning and normalization pipeline. Despite utilizing modest
computational resources, Sadeed achieves competitive results compared to
proprietary large language models and outperforms traditional models trained on
similar domains. Additionally, we highlight key limitations in current
benchmarking practices for Arabic diacritization. To address these issues, we
introduce SadeedDiac-25, a new benchmark designed to enable fairer and more
comprehensive evaluation across diverse text genres and complexity levels.
Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing
Arabic NLP applications, including machine translation, text-to-speech, and
language learning tools.