ChatPaper.aiChatPaper

SHAMI-MT: Un sistema de traducción automática bidireccional entre el dialecto árabe sirio y el árabe estándar moderno

SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

August 4, 2025
Autores: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Resumen

El rico panorama lingüístico del mundo árabe se caracteriza por una brecha significativa entre el árabe estándar moderno (MSA), el lenguaje de la comunicación formal, y los diversos dialectos regionales utilizados en la vida cotidiana. Esta diglosia representa un desafío formidable para el procesamiento del lenguaje natural, particularmente en la traducción automática. Este artículo presenta SHAMI-MT, un sistema de traducción automática bidireccional específicamente diseñado para cerrar la brecha comunicativa entre el MSA y el dialecto sirio. Presentamos dos modelos especializados, uno para la traducción de MSA a Shami y otro para la traducción de Shami a MSA, ambos basados en la arquitectura de última generación AraT5v2-base-1024. Los modelos fueron ajustados utilizando el conjunto de datos Nabra y evaluados rigurosamente con datos no vistos del corpus MADAR. Nuestro modelo de MSA a Shami obtuvo una puntuación de calidad promedio sobresaliente de 4.01 sobre 5.0 cuando fue evaluado por el modelo GPT-4.1 de OPENAI, demostrando su capacidad para producir traducciones no solo precisas, sino también auténticamente dialectales. Este trabajo proporciona una herramienta crucial y de alta fidelidad para un par lingüístico previamente desatendido, avanzando en el campo de la traducción dialectal del árabe y ofreciendo aplicaciones significativas en la localización de contenidos, el patrimonio cultural y la comunicación intercultural.
English
The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces SHAMI-MT, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of 4.01 out of 5.0 when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
PDF22August 5, 2025