ChatPaper.aiChatPaper

SHAMI-MT: Двунаправленная система машинного перевода между сирийским диалектом арабского языка и современным стандартным арабским языком

SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

August 4, 2025
Авторы: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Аннотация

Богатый лингвистический ландшафт арабского мира характеризуется значительным разрывом между современным стандартным арабским языком (MSA), используемым в формальном общении, и разнообразными региональными диалектами, применяемыми в повседневной жизни. Эта диглоссия представляет собой серьезную проблему для обработки естественного языка, особенно для машинного перевода. В данной статье представлена система SHAMI-MT, двунаправленная система машинного перевода, специально разработанная для преодоления коммуникационного разрыва между MSA и сирийским диалектом. Мы представляем две специализированные модели: одну для перевода с MSA на сирийский диалект и другую для перевода с сирийского диалекта на MSA, обе построенные на основе передовой архитектуры AraT5v2-base-1024. Модели были дообучены на обширном наборе данных Nabra и тщательно протестированы на неизвестных данных из корпуса MADAR. Наша модель MSA-to-Shami достигла выдающегося среднего балла качества 4.01 из 5.0 по оценке модели GPT-4.1 от OPENAI, демонстрируя свою способность создавать переводы, которые не только точны, но и аутентичны с точки зрения диалекта. Эта работа предоставляет важный инструмент высокой точности для ранее недостаточно охваченной языковой пары, продвигая область перевода диалектного арабского языка и предлагая значительные приложения в локализации контента, сохранении культурного наследия и межкультурной коммуникации.
English
The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces SHAMI-MT, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of 4.01 out of 5.0 when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
PDF22August 5, 2025