ArzEn-LLM: コードスイッチングされたエジプトアラビア語-英語の翻訳と音声認識における大規模言語モデルの活用
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
著者: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
要旨
近年、エジプトアラビア語と英語の間でのコードスイッチング現象が広く増加していることを動機として、本論文では、機械翻訳(MT)と自動音声認識(ASR)システムの複雑さを探求し、コードスイッチングされたエジプトアラビア語-英語を英語またはエジプトアラビア語に翻訳することに焦点を当てます。私たちの目標は、LLamaやGemmaなどの大規模言語モデルを活用して、これらのシステムを開発するために採用された方法論を提示することです。ASRの分野では、Whisperモデルを利用したコードスイッチングされたエジプトアラビア語の認識について探求し、データの前処理やトレーニング技術を含む実験手順を詳細に説明します。ASRとMTを統合した連続的な音声からテキストへの翻訳システムを実装することで、限られたリソースやエジプトアラビア語方言の独特な特性によって生じる課題を克服することを目指します。確立された指標に対する評価は、私たちの方法論が最先端の技術に対して英語翻訳で56%、アラビア語翻訳で9.3%の大幅な改善をもたらすことを示しています。コードスイッチングは話し言葉に深く内在しているため、ASRシステムがこの現象を効果的に処理できることが重要です。この能力は、ビジネス交渉、文化交流、学術的議論など、さまざまな分野でのシームレスな相互作用を可能にするために不可欠です。私たちのモデルとコードはオープンソースリソースとして利用可能です。コード: http://github.com/ahmedheakl/arazn-llm, モデル: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.Summary
AI-Generated Summary