ArzEn-LLM: Перевод и распознавание речи на смешанном коде египетского арабского и английского языков с использованием LLM.
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
June 26, 2024
Авторы: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa
cs.AI
Аннотация
Под влиянием широкого распространения явления смешивания кода между египетским арабским и английским языками в последнее время данная статья исследует тонкости машинного перевода (MT) и систем автоматического распознавания речи (ASR), сосредотачиваясь на переводе смешанного кода между египетским арабским и английским на английский или египетский арабский. Наша цель - представить методологии, применяемые при разработке этих систем, используя большие языковые модели, такие как LLama и Gemma. В области ASR мы исследуем использование модели Whisper для распознавания смешанного кода между египетским арабским, подробно описывая наши экспериментальные процедуры, включая предварительную обработку данных и методики обучения. Через реализацию последовательной системы речь-текст, интегрирующей ASR с MT, мы стремимся преодолеть вызовы, возникшие из-за ограниченных ресурсов и уникальных характеристик диалекта египетского арабского. Оценка по установленным метрикам демонстрирует многообещающие результаты, с нашими методологиями, обеспечивающими значительное улучшение на 56% в переводе на английский язык по сравнению с передовыми технологиями и на 9.3% в переводе на арабский язык. Поскольку смешивание кодов глубоко укоренилось в устной речи, важно, чтобы системы ASR могли эффективно обрабатывать это явление. Эта способность необходима для обеспечения беспрепятственного взаимодействия в различных областях, включая деловые переговоры, культурные обмены и академический дискурс. Наши модели и код доступны как ресурсы с открытым исходным кодом. Код: http://github.com/ahmedheakl/arazn-llm, Модели: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
English
Motivated by the widespread increase in the phenomenon of code-switching
between Egyptian Arabic and English in recent times, this paper explores the
intricacies of machine translation (MT) and automatic speech recognition (ASR)
systems, focusing on translating code-switched Egyptian Arabic-English to
either English or Egyptian Arabic. Our goal is to present the methodologies
employed in developing these systems, utilizing large language models such as
LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper
model for code-switched Egyptian Arabic recognition, detailing our experimental
procedures including data preprocessing and training techniques. Through the
implementation of a consecutive speech-to-text translation system that
integrates ASR with MT, we aim to overcome challenges posed by limited
resources and the unique characteristics of the Egyptian Arabic dialect.
Evaluation against established metrics showcases promising results, with our
methodologies yielding a significant improvement of 56% in English
translation over the state-of-the-art and 9.3% in Arabic translation. Since
code-switching is deeply inherent in spoken languages, it is crucial that ASR
systems can effectively handle this phenomenon. This capability is crucial for
enabling seamless interaction in various domains, including business
negotiations, cultural exchanges, and academic discourse. Our models and code
are available as open-source resources. Code:
http://github.com/ahmedheakl/arazn-llm}, Models:
http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.Summary
AI-Generated Summary