SHAMI-MT: Ein bidirektionales maschinelles Übersetzungssystem für den syrischen arabischen Dialekt und modernes Hocharabisch
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
August 4, 2025
papers.authors: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
papers.abstract
Die reiche linguistische Landschaft der arabischen Welt ist durch eine erhebliche Kluft zwischen dem modernen Standardarabisch (MSA), der Sprache der formalen Kommunikation, und den vielfältigen regionalen Dialekten, die im Alltag verwendet werden, gekennzeichnet. Diese Diglossie stellt eine erhebliche Herausforderung für die natürliche Sprachverarbeitung, insbesondere für die maschinelle Übersetzung, dar. In diesem Artikel wird SHAMI-MT vorgestellt, ein bidirektionales maschinelles Übersetzungssystem, das speziell entwickelt wurde, um die Kommunikationslücke zwischen MSA und dem syrischen Dialekt zu überbrücken. Wir präsentieren zwei spezialisierte Modelle, eines für die Übersetzung von MSA nach Shami und eines für die Übersetzung von Shami nach MSA, die beide auf der modernsten AraT5v2-base-1024-Architektur basieren. Die Modelle wurden auf dem umfassenden Nabra-Datensatz feinabgestimmt und rigoros auf ungesehenen Daten aus dem MADAR-Korpus evaluiert. Unser MSA-zu-Shami-Modell erreichte eine hervorragende durchschnittliche Qualitätsbewertung von 4,01 von 5,0, als es vom OPENAI-Modell GPT-4.1 beurteilt wurde, und demonstrierte damit seine Fähigkeit, Übersetzungen zu produzieren, die nicht nur genau, sondern auch dialektal authentisch sind. Diese Arbeit bietet ein entscheidendes, hochwertiges Werkzeug für ein bisher unterversorgtes Sprachpaar, fördert das Feld der dialektalen arabischen Übersetzung und bietet bedeutende Anwendungen in der Inhaltslokalisierung, dem kulturellen Erbe und der interkulturellen Kommunikation.
English
The rich linguistic landscape of the Arab world is characterized by a
significant gap between Modern Standard Arabic (MSA), the language of formal
communication, and the diverse regional dialects used in everyday life. This
diglossia presents a formidable challenge for natural language processing,
particularly machine translation. This paper introduces SHAMI-MT, a
bidirectional machine translation system specifically engineered to bridge the
communication gap between MSA and the Syrian dialect. We present two
specialized models, one for MSA-to-Shami and another for Shami-to-MSA
translation, both built upon the state-of-the-art AraT5v2-base-1024
architecture. The models were fine-tuned on the comprehensive Nabra dataset and
rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami
model achieved an outstanding average quality score of 4.01 out of 5.0
when judged by OPENAI model GPT-4.1, demonstrating its ability to produce
translations that are not only accurate but also dialectally authentic. This
work provides a crucial, high-fidelity tool for a previously underserved
language pair, advancing the field of dialectal Arabic translation and offering
significant applications in content localization, cultural heritage, and
intercultural communication.