ArzEn-LLM: Code-Switched Übersetzung und Spracherkennung von Ägyptisch-Arabisch-Englisch unter Verwendung von LLMs
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Autoren: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Zusammenfassung
Angespornt durch den weit verbreiteten Anstieg des Phänomens des Code-Switchings zwischen Ägyptisch-Arabisch und Englisch in letzter Zeit, untersucht diese Arbeit die Feinheiten von maschineller Übersetzung (MT) und automatischer Spracherkennung (ASR)-Systemen, mit dem Fokus auf die Übersetzung von code-geschaltetem Ägyptisch-Arabisch-Englisch entweder ins Englische oder Ägyptisch-Arabisch. Unser Ziel ist es, die Methodologien vorzustellen, die bei der Entwicklung dieser Systeme eingesetzt werden, unter Verwendung großer Sprachmodelle wie LLama und Gemma. Im Bereich der ASR untersuchen wir die Nutzung des Whisper-Modells für die Erkennung von code-geschaltetem Ägyptisch-Arabisch, wobei wir unsere experimentellen Verfahren einschließlich der Datenvorverarbeitung und Schulungstechniken im Detail beschreiben. Durch die Implementierung eines aufeinanderfolgenden Sprach-zu-Text-Übersetzungssystems, das ASR mit MT integriert, zielen wir darauf ab, Herausforderungen durch begrenzte Ressourcen und die einzigartigen Merkmale des ägyptisch-arabischen Dialekts zu überwinden. Die Evaluation anhand etablierter Metriken zeigt vielversprechende Ergebnisse, wobei unsere Methodologien eine signifikante Verbesserung von 56% bei der Übersetzung ins Englische gegenüber dem Stand der Technik und 9,3% bei der Übersetzung ins Arabische erzielen. Da Code-Switching tief in gesprochenen Sprachen verwurzelt ist, ist es entscheidend, dass ASR-Systeme dieses Phänomen effektiv bewältigen können. Diese Fähigkeit ist entscheidend, um eine nahtlose Interaktion in verschiedenen Bereichen, einschließlich Geschäftsverhandlungen, kultureller Austausch und akademischer Diskurs, zu ermöglichen. Unsere Modelle und der Code sind als Open-Source-Ressourcen verfügbar. Code: http://github.com/ahmedheakl/arazn-llm}, Modelle: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.Summary
AI-Generated Summary