ChatPaper.aiChatPaper

Adaptando o Reconhecimento Automático de Fala para Comunicações de Controle de Tráfego Aéreo com Sotaque

Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

February 27, 2025
Autores: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
cs.AI

Resumo

A comunicação eficaz no Controle de Tráfego Aéreo (ATC) é fundamental para manter a segurança da aviação, no entanto, os desafios apresentados pelo inglês com sotaque permanecem amplamente não abordados nos sistemas de Reconhecimento Automático de Fala (ASR). Modelos existentes enfrentam dificuldades com a precisão de transcrição para fala com sotaque do Sudeste Asiático (sotaque SEA), especialmente em ambientes ruidosos de ATC. Este estudo apresenta o desenvolvimento de modelos ASR ajustados especificamente para sotaques do Sudeste Asiático usando um conjunto de dados recém-criado. Nossa pesquisa alcança melhorias significativas, obtendo uma Taxa de Erro de Palavras (WER) de 0,0982 ou 9,82% na fala com sotaque SEA em ATC. Além disso, o artigo destaca a importância de conjuntos de dados específicos da região e treinamento focado em sotaques, oferecendo um caminho para implantar sistemas ASR em operações militares com recursos limitados. Os resultados enfatizam a necessidade de técnicas de treinamento robustas ao ruído e conjuntos de dados específicos da região para melhorar a precisão de transcrição para sotaques não ocidentais nas comunicações de ATC.
English
Effective communication in Air Traffic Control (ATC) is critical to maintaining aviation safety, yet the challenges posed by accented English remain largely unaddressed in Automatic Speech Recognition (ASR) systems. Existing models struggle with transcription accuracy for Southeast Asian-accented (SEA-accented) speech, particularly in noisy ATC environments. This study presents the development of ASR models fine-tuned specifically for Southeast Asian accents using a newly created dataset. Our research achieves significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82% on SEA-accented ATC speech. Additionally, the paper highlights the importance of region-specific datasets and accent-focused training, offering a pathway for deploying ASR systems in resource-constrained military operations. The findings emphasize the need for noise-robust training techniques and region-specific datasets to improve transcription accuracy for non-Western accents in ATC communications.

Summary

AI-Generated Summary

PDF62February 28, 2025