Anpassung der automatischen Spracherkennung für Akzente in der Flugsicherungskommunikation
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
February 27, 2025
Autoren: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
cs.AI
Zusammenfassung
Eine effektive Kommunikation in der Flugsicherung ist entscheidend für die Aufrechterhaltung der Flugsicherheit, dennoch bleiben die Herausforderungen durch akzentuiertes Englisch in automatischen Spracherkennungssystemen weitgehend ungelöst. Bestehende Modelle haben Schwierigkeiten mit der Transkriptionsgenauigkeit von südostasiatisch akzentuierten (SEA-akzentuierten) Sprachmustern, insbesondere in lauten Flugsicherungsumgebungen. Diese Studie präsentiert die Entwicklung von ASR-Modellen, die speziell für südostasiatische Akzente feinabgestimmt wurden, unter Verwendung eines neu erstellten Datensatzes. Unsere Forschung erzielt signifikante Verbesserungen mit einer Wortfehlerrate (WER) von 0,0982 oder 9,82% bei SEA-akzentuierten Flugsicherungsgesprächen. Darüber hinaus hebt der Artikel die Bedeutung von regionspezifischen Datensätzen und akzentfokussiertem Training hervor und bietet einen Weg für den Einsatz von ASR-Systemen in ressourcenbeschränkten militärischen Operationen. Die Ergebnisse unterstreichen die Notwendigkeit von rauschrobusten Trainingstechniken und regionspezifischen Datensätzen, um die Transkriptionsgenauigkeit für nicht-westliche Akzente in der Flugsicherungskommunikation zu verbessern.
English
Effective communication in Air Traffic Control (ATC) is critical to
maintaining aviation safety, yet the challenges posed by accented English
remain largely unaddressed in Automatic Speech Recognition (ASR) systems.
Existing models struggle with transcription accuracy for Southeast
Asian-accented (SEA-accented) speech, particularly in noisy ATC environments.
This study presents the development of ASR models fine-tuned specifically for
Southeast Asian accents using a newly created dataset. Our research achieves
significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82%
on SEA-accented ATC speech. Additionally, the paper highlights the importance
of region-specific datasets and accent-focused training, offering a pathway for
deploying ASR systems in resource-constrained military operations. The findings
emphasize the need for noise-robust training techniques and region-specific
datasets to improve transcription accuracy for non-Western accents in ATC
communications.Summary
AI-Generated Summary