Adattamento del Riconoscimento Vocale Automatico per le Comunicazioni di Controllo del Traffico Aereo con Accenti
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
February 27, 2025
Autori: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
cs.AI
Abstract
La comunicazione efficace nel Controllo del Traffico Aereo (ATC) è fondamentale per garantire la sicurezza dell'aviazione, tuttavia le sfide poste dall'inglese con accento rimangono in gran parte non affrontate nei sistemi di Riconoscimento Vocale Automatico (ASR). I modelli esistenti faticano con l'accuratezza della trascrizione per il parlato con accento del Sud-Est asiatico (accento SEA), in particolare in ambienti rumorosi dell'ATC. Questo studio presenta lo sviluppo di modelli ASR ottimizzati specificamente per gli accenti del Sud-Est asiatico utilizzando un dataset appena creato. La nostra ricerca ha ottenuto miglioramenti significativi, raggiungendo un Tasso di Errore delle Parole (WER) dello 0,0982 o 9,82% nel parlato con accento SEA nell'ATC. Inoltre, il documento sottolinea l'importanza di dataset specifici della regione e di un addestramento focalizzato sull'accento, offrendo una via per implementare i sistemi ASR in operazioni militari con risorse limitate. I risultati enfatizzano la necessità di tecniche di addestramento robuste al rumore e di dataset specifici della regione per migliorare l'accuratezza della trascrizione per gli accenti non occidentali nelle comunicazioni dell'ATC.
English
Effective communication in Air Traffic Control (ATC) is critical to
maintaining aviation safety, yet the challenges posed by accented English
remain largely unaddressed in Automatic Speech Recognition (ASR) systems.
Existing models struggle with transcription accuracy for Southeast
Asian-accented (SEA-accented) speech, particularly in noisy ATC environments.
This study presents the development of ASR models fine-tuned specifically for
Southeast Asian accents using a newly created dataset. Our research achieves
significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82%
on SEA-accented ATC speech. Additionally, the paper highlights the importance
of region-specific datasets and accent-focused training, offering a pathway for
deploying ASR systems in resource-constrained military operations. The findings
emphasize the need for noise-robust training techniques and region-specific
datasets to improve transcription accuracy for non-Western accents in ATC
communications.Summary
AI-Generated Summary