SHAMI-MT: Un sistema de traducción automática bidireccional entre el dialecto árabe sirio y el árabe estándar moderno
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
August 4, 2025
Autores: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Resumen
El rico panorama lingüístico del mundo árabe se caracteriza por una
brecha significativa entre el árabe estándar moderno (MSA), el lenguaje de la
comunicación formal, y los diversos dialectos regionales utilizados en la vida
cotidiana. Esta diglosia representa un desafío formidable para el procesamiento
del lenguaje natural, particularmente en la traducción automática. Este artículo
presenta SHAMI-MT, un sistema de traducción automática bidireccional
específicamente diseñado para cerrar la brecha comunicativa entre el MSA y el
dialecto sirio. Presentamos dos modelos especializados, uno para la traducción
de MSA a Shami y otro para la traducción de Shami a MSA, ambos basados en la
arquitectura de última generación AraT5v2-base-1024. Los modelos fueron
ajustados utilizando el conjunto de datos Nabra y evaluados rigurosamente con
datos no vistos del corpus MADAR. Nuestro modelo de MSA a Shami obtuvo una
puntuación de calidad promedio sobresaliente de 4.01 sobre 5.0 cuando fue
evaluado por el modelo GPT-4.1 de OPENAI, demostrando su capacidad para
producir traducciones no solo precisas, sino también auténticamente dialectales.
Este trabajo proporciona una herramienta crucial y de alta fidelidad para un par
lingüístico previamente desatendido, avanzando en el campo de la traducción
dialectal del árabe y ofreciendo aplicaciones significativas en la localización de
contenidos, el patrimonio cultural y la comunicación intercultural.
English
The rich linguistic landscape of the Arab world is characterized by a
significant gap between Modern Standard Arabic (MSA), the language of formal
communication, and the diverse regional dialects used in everyday life. This
diglossia presents a formidable challenge for natural language processing,
particularly machine translation. This paper introduces SHAMI-MT, a
bidirectional machine translation system specifically engineered to bridge the
communication gap between MSA and the Syrian dialect. We present two
specialized models, one for MSA-to-Shami and another for Shami-to-MSA
translation, both built upon the state-of-the-art AraT5v2-base-1024
architecture. The models were fine-tuned on the comprehensive Nabra dataset and
rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami
model achieved an outstanding average quality score of 4.01 out of 5.0
when judged by OPENAI model GPT-4.1, demonstrating its ability to produce
translations that are not only accurate but also dialectally authentic. This
work provides a crucial, high-fidelity tool for a previously underserved
language pair, advancing the field of dialectal Arabic translation and offering
significant applications in content localization, cultural heritage, and
intercultural communication.