Sadeed: Усовершенствование арабской диакритизации с помощью малой языковой модели

Аннотация

Расстановка диакритических знаков в арабских текстах остается сложной задачей в области обработки естественного языка из-за морфологического богатства языка. В данной статье мы представляем Sadeed — новый подход, основанный на тонко настроенной декодер-ориентированной языковой модели, адаптированной из Kuwain 1.5B Hennara et al. [2025], компактной модели, изначально обученной на разнообразных арабских корпусах. Sadeed тонко настраивается на тщательно отобранных, высококачественных наборах данных с диакритическими знаками, созданных с помощью строгого процесса очистки и нормализации данных. Несмотря на использование скромных вычислительных ресурсов, Sadeed демонстрирует конкурентоспособные результаты по сравнению с проприетарными крупными языковыми моделями и превосходит традиционные модели, обученные на схожих доменах. Кроме того, мы выделяем ключевые ограничения в текущих практиках тестирования для расстановки диакритических знаков в арабском языке. Для решения этих проблем мы представляем SadeedDiac-25 — новый эталонный тест, разработанный для обеспечения более справедливой и всесторонней оценки на различных жанрах текстов и уровнях сложности. Вместе Sadeed и SadeedDiac-25 создают прочную основу для развития приложений арабской NLP, включая машинный перевод, преобразование текста в речь и инструменты для изучения языка.

English

Arabic text diacritization remains a persistent challenge in natural language processing due to the language's morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.

Sadeed: Усовершенствование арабской диакритизации с помощью малой языковой модели

Sadeed: Advancing Arabic Diacritization Through Small Language Model

Аннотация

Support