Sadeed: Усовершенствование арабской диакритизации с помощью малой языковой моделиSadeed: Advancing Arabic Diacritization Through Small Language Model
Расстановка диакритических знаков в арабских текстах остается сложной задачей в области обработки естественного языка из-за морфологического богатства языка. В данной статье мы представляем Sadeed — новый подход, основанный на тонко настроенной декодер-ориентированной языковой модели, адаптированной из Kuwain 1.5B Hennara et al. [2025], компактной модели, изначально обученной на разнообразных арабских корпусах. Sadeed тонко настраивается на тщательно отобранных, высококачественных наборах данных с диакритическими знаками, созданных с помощью строгого процесса очистки и нормализации данных. Несмотря на использование скромных вычислительных ресурсов, Sadeed демонстрирует конкурентоспособные результаты по сравнению с проприетарными крупными языковыми моделями и превосходит традиционные модели, обученные на схожих доменах. Кроме того, мы выделяем ключевые ограничения в текущих практиках тестирования для расстановки диакритических знаков в арабском языке. Для решения этих проблем мы представляем SadeedDiac-25 — новый эталонный тест, разработанный для обеспечения более справедливой и всесторонней оценки на различных жанрах текстов и уровнях сложности. Вместе Sadeed и SadeedDiac-25 создают прочную основу для развития приложений арабской NLP, включая машинный перевод, преобразование текста в речь и инструменты для изучения языка.