Adaptación del Reconocimiento Automático del Habla para Comunicaciones de Control de Tráfico Aéreo con Acento.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
February 27, 2025
Autores: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
cs.AI
Resumen
La comunicación efectiva en el Control de Tráfico Aéreo (ATC) es fundamental para mantener la seguridad de la aviación, sin embargo, los desafíos planteados por el inglés con acento siguen siendo en gran medida no abordados en los sistemas de Reconocimiento Automático del Habla (ASR). Los modelos existentes tienen dificultades con la precisión de transcripción para el habla con acento del Sudeste Asiático (acento SEA), especialmente en entornos ruidosos de ATC. Este estudio presenta el desarrollo de modelos ASR ajustados específicamente para acentos del Sudeste Asiático utilizando un conjunto de datos recién creado. Nuestra investigación logra mejoras significativas, alcanzando una Tasa de Error de Palabras (WER) de 0.0982 o 9.82% en el habla con acento SEA en el ATC. Además, el documento destaca la importancia de conjuntos de datos específicos de la región y entrenamiento centrado en el acento, ofreciendo un camino para implementar sistemas ASR en operaciones militares con recursos limitados. Los hallazgos enfatizan la necesidad de técnicas de entrenamiento robustas al ruido y conjuntos de datos específicos de la región para mejorar la precisión de transcripción para acentos no occidentales en las comunicaciones de ATC.
English
Effective communication in Air Traffic Control (ATC) is critical to
maintaining aviation safety, yet the challenges posed by accented English
remain largely unaddressed in Automatic Speech Recognition (ASR) systems.
Existing models struggle with transcription accuracy for Southeast
Asian-accented (SEA-accented) speech, particularly in noisy ATC environments.
This study presents the development of ASR models fine-tuned specifically for
Southeast Asian accents using a newly created dataset. Our research achieves
significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82%
on SEA-accented ATC speech. Additionally, the paper highlights the importance
of region-specific datasets and accent-focused training, offering a pathway for
deploying ASR systems in resource-constrained military operations. The findings
emphasize the need for noise-robust training techniques and region-specific
datasets to improve transcription accuracy for non-Western accents in ATC
communications.