ChatPaper.aiChatPaper

SHAMI-MT: 시리아 아랍어 방언과 현대 표준 아랍어 간의 양방향 기계 번역 시스템

SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

August 4, 2025
저자: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

초록

아랍 세계의 풍부한 언어적 풍경은 공식적인 의사소통 언어인 현대 표준 아랍어(MSA)와 일상생활에서 사용되는 다양한 지역 방언 간의 상당한 격차로 특징지어집니다. 이러한 이중언어 현상은 자연어 처리, 특히 기계 번역에 있어서 상당한 도전 과제로 작용합니다. 본 논문은 MSA와 시리아 방언 간의 의사소통 격차를 해소하기 위해 특별히 설계된 양방향 기계 번역 시스템인 SHAMI-MT를 소개합니다. 우리는 MSA에서 시리아 방언으로의 번역과 시리아 방언에서 MSA로의 번역을 위한 두 가지 전용 모델을 제시하며, 이 두 모델은 최신 AraT5v2-base-1024 아키텍처를 기반으로 구축되었습니다. 이 모델들은 포괄적인 Nabra 데이터셋을 기반으로 미세 조정되었으며, MADAR 코퍼스의 미검증 데이터를 통해 엄격하게 평가되었습니다. 우리의 MSA-to-Shami 모델은 OPENAI 모델 GPT-4.1에 의해 평가되었을 때 5.0점 만점에 평균 4.01점의 우수한 품질 점수를 달성하여, 정확할 뿐만 아니라 방언적으로도 진정성 있는 번역을 생성할 수 있는 능력을 입증했습니다. 이 연구는 이전까지 충분히 지원되지 않았던 언어 쌍을 위한 고품질의 도구를 제공함으로써, 방언 아랍어 번역 분야를 발전시키고 콘텐츠 현지화, 문화 유산, 그리고 문화 간 의사소통에 있어 중요한 응용 가능성을 제시합니다.
English
The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces SHAMI-MT, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of 4.01 out of 5.0 when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
PDF22August 5, 2025