ChatPaper.aiChatPaper

Sadeed: 小規模言語モデルによるアラビア語発音記号付与の進展

Sadeed: Advancing Arabic Diacritization Through Small Language Model

April 30, 2025
著者: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI

要旨

アラビア語のテキスト発音記号付与は、その言語の形態的豊かさゆえに自然言語処理における持続的な課題となっている。本論文では、Kuwain 1.5B Hennara et al. [2025]から適応された、デコーダのみの言語モデルに基づく新たなアプローチであるSadeedを紹介する。Kuwain 1.5Bは、多様なアラビア語コーパスで学習されたコンパクトなモデルである。Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、高品質な発音記号付与データセットで微調整されている。限られた計算資源を利用しているにもかかわらず、Sadeedはプロプライエタリな大規模言語モデルと比較して競争力のある結果を達成し、類似のドメインで学習された従来のモデルを上回る性能を示す。さらに、現在のアラビア語発音記号付与のベンチマーク手法における主要な限界点を指摘する。これらの問題に対処するため、多様なテキストジャンルと複雑さレベルにわたって公平かつ包括的な評価を可能にする新しいベンチマークであるSadeedDiac-25を導入する。SadeedとSadeedDiac-25は、機械翻訳、テキスト読み上げ、言語学習ツールを含むアラビア語NLPアプリケーションの進展に向けた堅固な基盤を提供する。
English
Arabic text diacritization remains a persistent challenge in natural language processing due to the language's morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.
PDF592May 4, 2025