SHAMI-MT: Een bidirectioneel machinevertalingssysteem van het Syrische Arabische dialect naar Modern Standaard Arabisch
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
August 4, 2025
Auteurs: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Samenvatting
Het rijke taallandschap van de Arabische wereld wordt gekenmerkt door een
aanzienlijke kloof tussen Modern Standaard Arabisch (MSA), de taal van formele
communicatie, en de diverse regionale dialecten die in het dagelijks leven worden
gebruikt. Deze diglossie vormt een aanzienlijke uitdaging voor natuurlijke
taalverwerking, met name voor machinaal vertalen. Dit artikel introduceert
SHAMI-MT, een bidirectioneel machinevertaalsysteem dat specifiek is ontwikkeld
om de communicatiekloof tussen MSA en het Syrische dialect te overbruggen. We
presenteren twee gespecialiseerde modellen, één voor MSA-naar-Shami en een
ander voor Shami-naar-MSA vertaling, beide gebouwd op de state-of-the-art
AraT5v2-base-1024 architectuur. De modellen zijn verfijnd op de uitgebreide
Nabra dataset en rigoureus geëvalueerd op onbekende gegevens uit het MADAR
corpus. Ons MSA-naar-Shami model behaalde een uitstekende gemiddelde
kwaliteitsscore van 4.01 uit 5.0 bij beoordeling door het OPENAI model GPT-4.1,
wat aantoont dat het niet alleen nauwkeurige maar ook dialectaal authentieke
vertalingen kan produceren. Dit werk biedt een cruciaal, hoogwaardig hulpmiddel
voor een eerder onderbelichte taalcombinatie, waardoor het vakgebied van
dialectaal Arabisch vertalen wordt bevorderd en belangrijke toepassingen worden
geboden in contentlocalisatie, cultureel erfgoed en interculturele communicatie.
English
The rich linguistic landscape of the Arab world is characterized by a
significant gap between Modern Standard Arabic (MSA), the language of formal
communication, and the diverse regional dialects used in everyday life. This
diglossia presents a formidable challenge for natural language processing,
particularly machine translation. This paper introduces SHAMI-MT, a
bidirectional machine translation system specifically engineered to bridge the
communication gap between MSA and the Syrian dialect. We present two
specialized models, one for MSA-to-Shami and another for Shami-to-MSA
translation, both built upon the state-of-the-art AraT5v2-base-1024
architecture. The models were fine-tuned on the comprehensive Nabra dataset and
rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami
model achieved an outstanding average quality score of 4.01 out of 5.0
when judged by OPENAI model GPT-4.1, demonstrating its ability to produce
translations that are not only accurate but also dialectally authentic. This
work provides a crucial, high-fidelity tool for a previously underserved
language pair, advancing the field of dialectal Arabic translation and offering
significant applications in content localization, cultural heritage, and
intercultural communication.