Adattamento del Riconoscimento Vocale Automatico per le Comunicazioni di Controllo del Traffico Aereo con Accenti

Abstract

La comunicazione efficace nel Controllo del Traffico Aereo (ATC) è fondamentale per garantire la sicurezza dell'aviazione, tuttavia le sfide poste dall'inglese con accento rimangono in gran parte non affrontate nei sistemi di Riconoscimento Vocale Automatico (ASR). I modelli esistenti faticano con l'accuratezza della trascrizione per il parlato con accento del Sud-Est asiatico (accento SEA), in particolare in ambienti rumorosi dell'ATC. Questo studio presenta lo sviluppo di modelli ASR ottimizzati specificamente per gli accenti del Sud-Est asiatico utilizzando un dataset appena creato. La nostra ricerca ha ottenuto miglioramenti significativi, raggiungendo un Tasso di Errore delle Parole (WER) dello 0,0982 o 9,82% nel parlato con accento SEA nell'ATC. Inoltre, il documento sottolinea l'importanza di dataset specifici della regione e di un addestramento focalizzato sull'accento, offrendo una via per implementare i sistemi ASR in operazioni militari con risorse limitate. I risultati enfatizzano la necessità di tecniche di addestramento robuste al rumore e di dataset specifici della regione per migliorare l'accuratezza della trascrizione per gli accenti non occidentali nelle comunicazioni dell'ATC.

English

Effective communication in Air Traffic Control (ATC) is critical to maintaining aviation safety, yet the challenges posed by accented English remain largely unaddressed in Automatic Speech Recognition (ASR) systems. Existing models struggle with transcription accuracy for Southeast Asian-accented (SEA-accented) speech, particularly in noisy ATC environments. This study presents the development of ASR models fine-tuned specifically for Southeast Asian accents using a newly created dataset. Our research achieves significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82% on SEA-accented ATC speech. Additionally, the paper highlights the importance of region-specific datasets and accent-focused training, offering a pathway for deploying ASR systems in resource-constrained military operations. The findings emphasize the need for noise-robust training techniques and region-specific datasets to improve transcription accuracy for non-Western accents in ATC communications.

Adattamento del Riconoscimento Vocale Automatico per le Comunicazioni di Controllo del Traffico Aereo con Accenti

Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Abstract

Support