ArzEn-LLM: Codewisseling in Egyptisch Arabisch-Engels Vertaling en Spraakherkenning met behulp van LLM's
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Auteurs: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Samenvatting
Gemotiveerd door de toenemende prevalentie van code-switching tussen Egyptisch Arabisch en Engels in recente tijden, onderzoekt dit artikel de complexiteiten van machinevertaling (MT) en automatische spraakherkenning (ASR) systemen, met een focus op het vertalen van code-switched Egyptisch Arabisch-Engels naar ofwel Engels of Egyptisch Arabisch. Ons doel is om de methodologieën te presenteren die worden gebruikt bij de ontwikkeling van deze systemen, waarbij gebruik wordt gemaakt van grote taalmodelen zoals LLama en Gemma. Op het gebied van ASR onderzoeken we het gebruik van het Whisper-model voor de herkenning van code-switched Egyptisch Arabisch, waarbij we onze experimentele procedures, inclusief gegevensvoorbewerking en trainingstechnieken, gedetailleerd beschrijven. Door de implementatie van een opeenvolgend spraak-naar-tekst vertaalsysteem dat ASR integreert met MT, streven we ernaar om uitdagingen te overwinnen die worden veroorzaakt door beperkte middelen en de unieke kenmerken van het Egyptisch Arabische dialect. Evaluatie tegen gevestigde metrieken toont veelbelovende resultaten, waarbij onze methodologieën een significante verbetering van 56% in Engelse vertaling en 9,3% in Arabische vertaling laten zien ten opzichte van de state-of-the-art. Aangezien code-switching diep verankerd is in gesproken talen, is het cruciaal dat ASR-systemen dit fenomeen effectief kunnen verwerken. Deze capaciteit is essentieel voor het mogelijk maken van naadloze interactie in verschillende domeinen, waaronder zakelijke onderhandelingen, culturele uitwisselingen en academische discussies. Onze modellen en code zijn beschikbaar als open-source bronnen. Code: http://github.com/ahmedheakl/arazn-llm, Modellen: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.