ArzEn-LLM : Traduction et reconnaissance vocale en arabe égyptien-anglais avec alternance codique utilisant des modèles de langage de grande taille
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Auteurs: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Résumé
Motivés par l'augmentation généralisée du phénomène de code-switching entre l'arabe égyptien et l'anglais ces dernières années, cet article explore les complexités des systèmes de traduction automatique (MT) et de reconnaissance automatique de la parole (ASR), en se concentrant sur la traduction de l'arabe égyptien-anglais en code-switching vers l'anglais ou l'arabe égyptien. Notre objectif est de présenter les méthodologies employées pour développer ces systèmes, en utilisant des modèles de langage de grande envergure tels que LLama et Gemma. Dans le domaine de l'ASR, nous explorons l'utilisation du modèle Whisper pour la reconnaissance de l'arabe égyptien en code-switching, en détaillant nos procédures expérimentales, y compris le prétraitement des données et les techniques d'entraînement. Grâce à la mise en œuvre d'un système de traduction parole-texte consécutive qui intègre l'ASR avec la MT, nous visons à surmonter les défis posés par les ressources limitées et les caractéristiques uniques du dialecte arabe égyptien. L'évaluation par rapport aux métriques établies montre des résultats prometteurs, avec nos méthodologies permettant une amélioration significative de 56 % dans la traduction en anglais par rapport à l'état de l'art et de 9,3 % dans la traduction en arabe. Étant donné que le code-switching est profondément inhérent aux langues parlées, il est crucial que les systèmes ASR puissent gérer efficacement ce phénomène. Cette capacité est essentielle pour permettre une interaction fluide dans divers domaines, y compris les négociations commerciales, les échanges culturels et les discours académiques. Nos modèles et notre code sont disponibles en tant que ressources open-source. Code : http://github.com/ahmedheakl/arazn-llm, Modèles : http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.Summary
AI-Generated Summary