SHAMI-MT: Um Sistema de Tradução Automática Bidirecional entre o Dialeto Árabe Sírio e o Árabe Padrão Moderno
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
August 4, 2025
Autores: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Resumo
O rico panorama linguístico do mundo árabe é caracterizado por uma
lacuna significativa entre o Árabe Padrão Moderno (MSA), a linguagem da
comunicação formal, e os diversos dialetos regionais usados no cotidiano. Essa
diglossia apresenta um desafio formidável para o processamento de linguagem natural,
particularmente para a tradução automática. Este artigo apresenta o SHAMI-MT, um
sistema de tradução automática bidirecional especificamente projetado para
preencher a lacuna de comunicação entre o MSA e o dialeto sírio. Apresentamos dois
modelos especializados, um para tradução de MSA para Shami e outro para Shami
para MSA, ambos construídos sobre a arquitetura de última geração AraT5v2-base-1024.
Os modelos foram ajustados no abrangente conjunto de dados Nabra e
rigorosamente avaliados em dados não vistos do corpus MADAR. Nosso modelo MSA-para-Shami
alcançou uma pontuação média de qualidade excepcional de 4,01 em 5,0
quando avaliado pelo modelo OPENAI GPT-4.1, demonstrando sua capacidade de produzir
traduções que não são apenas precisas, mas também autenticamente dialetais. Este
trabalho fornece uma ferramenta crucial e de alta fidelidade para um par de idiomas
anteriormente pouco atendido, avançando o campo da tradução do árabe dialetal e
oferecendo aplicações significativas na localização de conteúdo, patrimônio cultural e
comunicação intercultural.
English
The rich linguistic landscape of the Arab world is characterized by a
significant gap between Modern Standard Arabic (MSA), the language of formal
communication, and the diverse regional dialects used in everyday life. This
diglossia presents a formidable challenge for natural language processing,
particularly machine translation. This paper introduces SHAMI-MT, a
bidirectional machine translation system specifically engineered to bridge the
communication gap between MSA and the Syrian dialect. We present two
specialized models, one for MSA-to-Shami and another for Shami-to-MSA
translation, both built upon the state-of-the-art AraT5v2-base-1024
architecture. The models were fine-tuned on the comprehensive Nabra dataset and
rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami
model achieved an outstanding average quality score of 4.01 out of 5.0
when judged by OPENAI model GPT-4.1, demonstrating its ability to produce
translations that are not only accurate but also dialectally authentic. This
work provides a crucial, high-fidelity tool for a previously underserved
language pair, advancing the field of dialectal Arabic translation and offering
significant applications in content localization, cultural heritage, and
intercultural communication.