SHAMI-MT: シリアアラビア方言と現代標準アラビア語の双方向機械翻訳システム
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
August 4, 2025
著者: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
要旨
アラブ世界の豊かな言語的景観は、正式なコミュニケーションの言語である現代標準アラビア語(MSA)と、日常生活で使用される多様な地域方言との間に大きな隔たりがあることが特徴です。このダイグロシアは、自然言語処理、特に機械翻訳において大きな課題を提示しています。本論文では、MSAとシリア方言の間のコミュニケーションギャップを埋めるために特別に設計された双方向機械翻訳システム「SHAMI-MT」を紹介します。我々は、MSAからシリア方言への翻訳と、シリア方言からMSAへの翻訳のための2つの専門モデルを提示し、どちらも最先端のAraT5v2-base-1024アーキテクチャに基づいて構築されています。これらのモデルは、包括的なNabraデータセットで微調整され、MADARコーパスの未見データで厳密に評価されました。我々のMSAからシリア方言への翻訳モデルは、OPENAIのモデルGPT-4.1によって評価された際に、5.0満点中4.01という卓越した平均品質スコアを達成し、正確であるだけでなく方言的に本物の翻訳を生成する能力を示しました。この研究は、これまで十分にサポートされていなかった言語ペアに対して、高忠実度の重要なツールを提供し、方言アラビア語翻訳の分野を前進させ、コンテンツのローカライゼーション、文化遺産、異文化間コミュニケーションにおいて重要な応用を提供します。
English
The rich linguistic landscape of the Arab world is characterized by a
significant gap between Modern Standard Arabic (MSA), the language of formal
communication, and the diverse regional dialects used in everyday life. This
diglossia presents a formidable challenge for natural language processing,
particularly machine translation. This paper introduces SHAMI-MT, a
bidirectional machine translation system specifically engineered to bridge the
communication gap between MSA and the Syrian dialect. We present two
specialized models, one for MSA-to-Shami and another for Shami-to-MSA
translation, both built upon the state-of-the-art AraT5v2-base-1024
architecture. The models were fine-tuned on the comprehensive Nabra dataset and
rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami
model achieved an outstanding average quality score of 4.01 out of 5.0
when judged by OPENAI model GPT-4.1, demonstrating its ability to produce
translations that are not only accurate but also dialectally authentic. This
work provides a crucial, high-fidelity tool for a previously underserved
language pair, advancing the field of dialectal Arabic translation and offering
significant applications in content localization, cultural heritage, and
intercultural communication.