액센트가 있는 항공 교통 관제 통신을 위한 자동 음성 인식의 적응
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
February 27, 2025
저자: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
cs.AI
초록
항공 교통 관제(ATC)에서의 효과적인 의사 소통은 항공 안전을 유지하는 데 중요하지만, 강조된 영어로 인한 도전에 대한 대응은 자동 음성 인식(ASR) 시스템에서 여전히 주로 다루지 않고 있습니다. 기존 모델은 특히 소음이 있는 ATC 환경에서 동남아시아(SEA) 사투리의 음성에 대한 전사 정확도에 어려움을 겪습니다. 본 연구는 새롭게 생성된 데이터셋을 사용하여 동남아시아 사투리에 특화된 ASR 모델의 개발을 제시합니다. 우리의 연구는 SEA 사투리 ATC 음성에 대해 0.0982 또는 9.82%의 단어 오류율(WER)을 달성하는 중요한 개선을 이루었습니다. 더불어, 본 논문은 지역별 데이터셋과 사투리 중심의 교육의 중요성을 강조하며, 자원 부족한 군사 작전에서 ASR 시스템을 배치하는 길을 제시합니다. 이 연구 결과는 비서구 사투리에 대한 ATC 의사 소통의 전사 정확도를 향상시키기 위해 소음에 강건한 교육 기술과 지역별 데이터셋의 필요성을 강조합니다.
English
Effective communication in Air Traffic Control (ATC) is critical to
maintaining aviation safety, yet the challenges posed by accented English
remain largely unaddressed in Automatic Speech Recognition (ASR) systems.
Existing models struggle with transcription accuracy for Southeast
Asian-accented (SEA-accented) speech, particularly in noisy ATC environments.
This study presents the development of ASR models fine-tuned specifically for
Southeast Asian accents using a newly created dataset. Our research achieves
significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82%
on SEA-accented ATC speech. Additionally, the paper highlights the importance
of region-specific datasets and accent-focused training, offering a pathway for
deploying ASR systems in resource-constrained military operations. The findings
emphasize the need for noise-robust training techniques and region-specific
datasets to improve transcription accuracy for non-Western accents in ATC
communications.Summary
AI-Generated Summary