ChatPaper.aiChatPaper

Sadeed: Avançando na Diacritização do Árabe Através de Modelos de Linguagem Pequenos

Sadeed: Advancing Arabic Diacritization Through Small Language Model

April 30, 2025
Autores: Zeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan
cs.AI

Resumo

A diacritização de textos em árabe continua sendo um desafio persistente no processamento de linguagem natural devido à riqueza morfológica da língua. Neste artigo, apresentamos o Sadeed, uma abordagem inovadora baseada em um modelo de linguagem apenas de decodificador, ajustado a partir do Kuwain 1.5B Hennara et al. [2025], um modelo compacto originalmente treinado em diversos corpora árabes. O Sadeed é ajustado em conjuntos de dados diacritizados de alta qualidade, cuidadosamente curados e construídos por meio de um rigoroso pipeline de limpeza e normalização de dados. Apesar de utilizar recursos computacionais modestos, o Sadeed alcança resultados competitivos em comparação com modelos de linguagem grandes proprietários e supera modelos tradicionais treinados em domínios semelhantes. Além disso, destacamos limitações importantes nas práticas atuais de avaliação de benchmarks para diacritização árabe. Para abordar essas questões, introduzimos o SadeedDiac-25, um novo benchmark projetado para permitir uma avaliação mais justa e abrangente em diversos gêneros de texto e níveis de complexidade. Juntos, o Sadeed e o SadeedDiac-25 fornecem uma base robusta para avançar aplicações de PLN em árabe, incluindo tradução automática, conversão de texto em fala e ferramentas de aprendizado de idiomas.
English
Arabic text diacritization remains a persistent challenge in natural language processing due to the language's morphological richness. In this paper, we introduce Sadeed, a novel approach based on a fine-tuned decoder-only language model adapted from Kuwain 1.5B Hennara et al. [2025], a compact model originally trained on diverse Arabic corpora. Sadeed is fine-tuned on carefully curated, high-quality diacritized datasets, constructed through a rigorous data-cleaning and normalization pipeline. Despite utilizing modest computational resources, Sadeed achieves competitive results compared to proprietary large language models and outperforms traditional models trained on similar domains. Additionally, we highlight key limitations in current benchmarking practices for Arabic diacritization. To address these issues, we introduce SadeedDiac-25, a new benchmark designed to enable fairer and more comprehensive evaluation across diverse text genres and complexity levels. Together, Sadeed and SadeedDiac-25 provide a robust foundation for advancing Arabic NLP applications, including machine translation, text-to-speech, and language learning tools.
PDF582May 4, 2025