ArzEn-LLM: Traducción y Reconocimiento de Voz en Árabe Egipcio-Inglés con Cambio de Código Utilizando Modelos de Lenguaje de Gran Escala
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Autores: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Resumen
Motivados por el aumento generalizado del fenómeno de alternancia de códigos entre el árabe egipcio y el inglés en los últimos tiempos, este artículo explora las complejidades de los sistemas de traducción automática (MT) y reconocimiento automático del habla (ASR), centrándose en la traducción de textos con alternancia de códigos entre el árabe egipcio y el inglés hacia cualquiera de estos dos idiomas. Nuestro objetivo es presentar las metodologías empleadas en el desarrollo de estos sistemas, utilizando modelos de lenguaje extenso como LLama y Gemma. En el campo del ASR, exploramos el uso del modelo Whisper para el reconocimiento del árabe egipcio con alternancia de códigos, detallando nuestros procedimientos experimentales, incluyendo el preprocesamiento de datos y las técnicas de entrenamiento. A través de la implementación de un sistema de traducción de voz a texto consecutivo que integra ASR con MT, buscamos superar los desafíos planteados por los recursos limitados y las características únicas del dialecto árabe egipcio. La evaluación frente a métricas establecidas muestra resultados prometedores, con nuestras metodologías logrando una mejora significativa del 56% en la traducción al inglés y del 9.3% en la traducción al árabe en comparación con el estado del arte. Dado que la alternancia de códigos está profundamente arraigada en los idiomas hablados, es crucial que los sistemas ASR puedan manejar este fenómeno de manera efectiva. Esta capacidad es esencial para permitir una interacción fluida en diversos ámbitos, incluyendo negociaciones comerciales, intercambios culturales y discursos académicos. Nuestros modelos y código están disponibles como recursos de código abierto. Código: http://github.com/ahmedheakl/arazn-llm, Modelos: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.Summary
AI-Generated Summary