ChatPaper.aiChatPaper

SHAMI-MT: Um Sistema de Tradução Automática Bidirecional entre o Dialeto Árabe Sírio e o Árabe Padrão Moderno

SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

August 4, 2025
Autores: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Resumo

O rico panorama linguístico do mundo árabe é caracterizado por uma lacuna significativa entre o Árabe Padrão Moderno (MSA), a linguagem da comunicação formal, e os diversos dialetos regionais usados no cotidiano. Essa diglossia apresenta um desafio formidável para o processamento de linguagem natural, particularmente para a tradução automática. Este artigo apresenta o SHAMI-MT, um sistema de tradução automática bidirecional especificamente projetado para preencher a lacuna de comunicação entre o MSA e o dialeto sírio. Apresentamos dois modelos especializados, um para tradução de MSA para Shami e outro para Shami para MSA, ambos construídos sobre a arquitetura de última geração AraT5v2-base-1024. Os modelos foram ajustados no abrangente conjunto de dados Nabra e rigorosamente avaliados em dados não vistos do corpus MADAR. Nosso modelo MSA-para-Shami alcançou uma pontuação média de qualidade excepcional de 4,01 em 5,0 quando avaliado pelo modelo OPENAI GPT-4.1, demonstrando sua capacidade de produzir traduções que não são apenas precisas, mas também autenticamente dialetais. Este trabalho fornece uma ferramenta crucial e de alta fidelidade para um par de idiomas anteriormente pouco atendido, avançando o campo da tradução do árabe dialetal e oferecendo aplicações significativas na localização de conteúdo, patrimônio cultural e comunicação intercultural.
English
The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces SHAMI-MT, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of 4.01 out of 5.0 when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
PDF22August 5, 2025