ArzEn-LLM: Traduzione e Riconoscimento Vocale per l'Arabo Egiziano-Inglese con Code-Switching Utilizzando Modelli Linguistici di Grande Dimensione
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Autori: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Abstract
Motivati dalla crescente diffusione del fenomeno del code-switching tra l'arabo egiziano e l'inglese negli ultimi tempi, questo articolo esplora le complessità dei sistemi di traduzione automatica (MT) e di riconoscimento vocale automatico (ASR), concentrandosi sulla traduzione del code-switched arabo egiziano-inglese verso l'inglese o l'arabo egiziano. Il nostro obiettivo è presentare le metodologie impiegate nello sviluppo di questi sistemi, utilizzando modelli linguistici di grandi dimensioni come LLama e Gemma. Nel campo dell'ASR, esploriamo l'utilizzo del modello Whisper per il riconoscimento del code-switched arabo egiziano, dettagliando le nostre procedure sperimentali, inclusa la pre-elaborazione dei dati e le tecniche di addestramento. Attraverso l'implementazione di un sistema di traduzione consecutiva da voce a testo che integra ASR con MT, miriamo a superare le sfide poste dalle risorse limitate e dalle caratteristiche uniche del dialetto arabo egiziano. La valutazione rispetto a metriche consolidate mostra risultati promettenti, con le nostre metodologie che registrano un miglioramento significativo del 56% nella traduzione in inglese rispetto allo stato dell'arte e del 9,3% nella traduzione in arabo. Poiché il code-switching è profondamente radicato nelle lingue parlate, è cruciale che i sistemi ASR siano in grado di gestire efficacemente questo fenomeno. Questa capacità è essenziale per consentire un'interazione fluida in vari ambiti, tra cui negoziazioni commerciali, scambi culturali e discorsi accademici. I nostri modelli e il codice sono disponibili come risorse open-source. Codice: http://github.com/ahmedheakl/arazn-llm}, Modelli: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.