ArzEn-LLM: 대형 언어 모델을 활용한 코드 스위칭 이집트 아랍어-영어 번역 및 음성 인식

ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

June 26, 2024
저자: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI

초록

최근 이집트 아랍어와 영어 간 코드 스위칭(code-switching) 현상이 널리 증가함에 따라, 본 논문은 기계 번역(MT) 및 자동 음성 인식(ASR) 시스템의 복잡성을 탐구하며, 특히 이집트 아랍어-영어 코드 스위칭을 영어 또는 이집트 아랍어로 번역하는 데 초점을 맞춥니다. 우리의 목표는 LLama 및 Gemma와 같은 대규모 언어 모델을 활용하여 이러한 시스템을 개발하는 데 사용된 방법론을 제시하는 것입니다. ASR 분야에서는 Whisper 모델을 활용한 이집트 아랍어 코드 스위칭 인식을 탐구하며, 데이터 전처리 및 훈련 기법을 포함한 실험 절차를 상세히 설명합니다. ASR과 MT를 통합한 연속 음성-텍스트 번역 시스템을 구현함으로써, 제한된 자원과 이집트 아랍어 방언의 독특한 특성으로 인한 문제를 극복하고자 합니다. 기존의 평가 지표와 비교한 결과, 우리의 방법론은 영어 번역에서 최신 기술 대비 56%, 아랍어 번역에서 9.3%의 상당한 개선을 보여주었습니다. 코드 스위칭은 구어체 언어에 깊이 내재되어 있으므로, ASR 시스템이 이 현상을 효과적으로 처리할 수 있는 능력은 비즈니스 협상, 문화 교류, 학술 담론 등 다양한 분야에서 원활한 상호작용을 가능하게 하는 데 중요합니다. 우리의 모델과 코드는 오픈소스 리소스로 제공됩니다. 코드: http://github.com/ahmedheakl/arazn-llm, 모델: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching between Egyptian Arabic and English in recent times, this paper explores the intricacies of machine translation (MT) and automatic speech recognition (ASR) systems, focusing on translating code-switched Egyptian Arabic-English to either English or Egyptian Arabic. Our goal is to present the methodologies employed in developing these systems, utilizing large language models such as LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper model for code-switched Egyptian Arabic recognition, detailing our experimental procedures including data preprocessing and training techniques. Through the implementation of a consecutive speech-to-text translation system that integrates ASR with MT, we aim to overcome challenges posed by limited resources and the unique characteristics of the Egyptian Arabic dialect. Evaluation against established metrics showcases promising results, with our methodologies yielding a significant improvement of 56% in English translation over the state-of-the-art and 9.3% in Arabic translation. Since code-switching is deeply inherent in spoken languages, it is crucial that ASR systems can effectively handle this phenomenon. This capability is crucial for enabling seamless interaction in various domains, including business negotiations, cultural exchanges, and academic discourse. Our models and code are available as open-source resources. Code: http://github.com/ahmedheakl/arazn-llm}, Models: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.

Summary

AI-Generated Summary

PDF55November 29, 2024