ArzEn-LLM: Tradução e Reconhecimento de Fala Árabe Egípcia-Inglês com Troca de Código Usando LLMs
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Autores: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Resumo
Motivado pelo aumento generalizado do fenômeno de alternância de código entre o árabe egípcio e o inglês nos tempos recentes, este artigo explora as complexidades da tradução automática (TA) e do reconhecimento automático de fala (RAS), concentrando-se na tradução do árabe egípcio-inglês alternado para inglês ou árabe egípcio. Nosso objetivo é apresentar as metodologias empregadas no desenvolvimento desses sistemas, utilizando grandes modelos de linguagem como LLama e Gemma. No campo do RAS, exploramos a utilização do modelo Whisper para o reconhecimento do árabe egípcio alternado, detalhando nossos procedimentos experimentais, incluindo pré-processamento de dados e técnicas de treinamento. Através da implementação de um sistema de tradução consecutiva de fala para texto que integra RAS com TA, pretendemos superar os desafios impostos por recursos limitados e as características únicas do dialeto árabe egípcio. A avaliação em relação a métricas estabelecidas mostra resultados promissores, com nossas metodologias proporcionando uma melhoria significativa de 56% na tradução para inglês em relação ao estado da arte e 9,3% na tradução para árabe. Uma vez que a alternância de código é profundamente inerente às línguas faladas, é crucial que os sistemas de RAS possam lidar eficazmente com esse fenômeno. Essa capacidade é essencial para possibilitar interações contínuas em vários domínios, incluindo negociações comerciais, intercâmbios culturais e discursos acadêmicos. Nossos modelos e código estão disponíveis como recursos de código aberto. Código: http://github.com/ahmedheakl/arazn-llm, Modelos: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.