ChatPaper.aiChatPaper

SHAMI-MT : Un système de traduction automatique bidirectionnel entre le dialecte arabe syrien et l’arabe standard moderne

SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

August 4, 2025
papers.authors: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

papers.abstract

Le paysage linguistique riche du monde arabe se caractérise par un écart significatif entre l’arabe standard moderne (ASM), langue de communication formelle, et les divers dialectes régionaux utilisés dans la vie quotidienne. Cette diglossie représente un défi majeur pour le traitement automatique des langues, en particulier pour la traduction automatique. Cet article présente SHAMI-MT, un système de traduction automatique bidirectionnel spécialement conçu pour combler le fossé de communication entre l’ASM et le dialecte syrien. Nous présentons deux modèles spécialisés, l’un pour la traduction de l’ASM vers le dialecte syrien (Shami) et l’autre pour la traduction du Shami vers l’ASM, tous deux basés sur l’architecture de pointe AraT5v2-base-1024. Les modèles ont été affinés sur le jeu de données complet Nabra et rigoureusement évalués sur des données inédites issues du corpus MADAR. Notre modèle ASM-vers-Shami a obtenu un score de qualité moyen exceptionnel de 4,01 sur 5,0 lorsqu’évalué par le modèle GPT-4.1 d’OPENAI, démontrant sa capacité à produire des traductions non seulement précises mais aussi authentiques sur le plan dialectal. Ce travail fournit un outil crucial et de haute fidélité pour une paire de langues jusqu’alors mal desservie, faisant progresser le domaine de la traduction dialectale de l’arabe et offrant des applications significatives dans la localisation de contenu, la préservation du patrimoine culturel et la communication interculturelle.
English
The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces SHAMI-MT, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of 4.01 out of 5.0 when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
PDF22August 5, 2025