ChatPaper.aiChatPaper

SHAMI-MT: Un sistema di traduzione automatica bidirezionale tra il dialetto arabo siriano e l'arabo standard moderno

SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

August 4, 2025
Autori: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Abstract

Il ricco panorama linguistico del mondo arabo è caratterizzato da un significativo divario tra l'Arabo Standard Moderno (MSA), la lingua della comunicazione formale, e i vari dialetti regionali utilizzati nella vita quotidiana. Questa diglossia rappresenta una sfida formidabile per l'elaborazione del linguaggio naturale, in particolare per la traduzione automatica. Questo articolo introduce SHAMI-MT, un sistema di traduzione automatica bidirezionale specificamente progettato per colmare il divario comunicativo tra l'MSA e il dialetto siriano. Presentiamo due modelli specializzati, uno per la traduzione da MSA a Shami e un altro da Shami a MSA, entrambi basati sull'architettura all'avanguardia AraT5v2-base-1024. I modelli sono stati perfezionati sul dataset completo Nabra e valutati rigorosamente su dati non visti del corpus MADAR. Il nostro modello MSA-to-Shami ha ottenuto un punteggio di qualità medio eccezionale di 4.01 su 5.0 quando valutato dal modello OPENAI GPT-4.1, dimostrando la sua capacità di produrre traduzioni non solo accurate ma anche autenticamente dialettali. Questo lavoro fornisce uno strumento cruciale e ad alta fedeltà per una coppia linguistica precedentemente poco servita, avanzando il campo della traduzione dialettale araba e offrendo applicazioni significative nella localizzazione dei contenuti, nel patrimonio culturale e nella comunicazione interculturale.
English
The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces SHAMI-MT, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of 4.01 out of 5.0 when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
PDF22August 5, 2025