Sadeed: Усовершенствование арабской диакритизации с помощью малой языковой модели
Sadeed: Advancing Arabic Diacritization Through Small Language Model
April 30, 2025
Авторы: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI
Аннотация
Расстановка диакритических знаков в арабских текстах остается сложной задачей в области обработки естественного языка из-за морфологического богатства языка. В данной статье мы представляем Sadeed — новый подход, основанный на тонко настроенной декодер-ориентированной языковой модели, адаптированной из Kuwain 1.5B Hennara et al. [2025], компактной модели, изначально обученной на разнообразных арабских корпусах. Sadeed тонко настраивается на тщательно отобранных, высококачественных наборах данных с диакритическими знаками, созданных с помощью строгого процесса очистки и нормализации данных. Несмотря на использование скромных вычислительных ресурсов, Sadeed демонстрирует конкурентоспособные результаты по сравнению с проприетарными крупными языковыми моделями и превосходит традиционные модели, обученные на схожих доменах. Кроме того, мы выделяем ключевые ограничения в текущих практиках тестирования для расстановки диакритических знаков в арабском языке. Для решения этих проблем мы представляем SadeedDiac-25 — новый эталонный тест, разработанный для обеспечения более справедливой и всесторонней оценки на различных жанрах текстов и уровнях сложности. Вместе Sadeed и SadeedDiac-25 создают прочную основу для развития приложений арабской NLP, включая машинный перевод, преобразование текста в речь и инструменты для изучения языка.
English
Arabic text diacritization remains a persistent challenge in natural language
processing due to the language's morphological richness. In this paper, we
introduce Sadeed, a novel approach based on a fine-tuned decoder-only language
model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model
originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully
curated, high-quality diacritized datasets, constructed through a rigorous
data-cleaning and normalization pipeline. Despite utilizing modest
computational resources, Sadeed achieves competitive results compared to
proprietary large language models and outperforms traditional models trained on
similar domains. Additionally, we highlight key limitations in current
benchmarking practices for Arabic diacritization. To address these issues, we
introduce SadeedDiac-25, a new benchmark designed to enable fairer and more
comprehensive evaluation across diverse text genres and complexity levels.
Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing
Arabic NLP applications, including machine translation, text-to-speech, and
language learning tools.