Adaptation de la Reconnaissance Automatique de la Parole pour les Communications en Contrôle de la Circulation Aérienne avec Accent.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications
February 27, 2025
Auteurs: Marcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
cs.AI
Résumé
La communication efficace dans le Contrôle du Trafic Aérien (CTA) est essentielle pour garantir la sécurité de l'aviation, cependant les défis posés par l'anglais avec accent restent largement non résolus dans les systèmes de Reconnaissance Automatique de la Parole (RAP). Les modèles existants rencontrent des difficultés en termes de précision de transcription pour la parole avec accent d'Asie du Sud-Est (accent d'ASE), notamment dans des environnements bruyants de CTA. Cette étude présente le développement de modèles de RAP affinés spécifiquement pour les accents d'Asie du Sud-Est en utilisant un ensemble de données nouvellement créé. Notre recherche obtient des améliorations significatives, atteignant un Taux d'Erreur de Mots (TEM) de 0,0982 ou 9,82% pour la parole avec accent d'ASE en CTA. De plus, l'article souligne l'importance des ensembles de données spécifiques à la région et de la formation axée sur l'accent, offrant une voie pour le déploiement de systèmes de RAP dans des opérations militaires aux ressources limitées. Les résultats mettent en avant la nécessité de techniques d'entraînement robustes au bruit et d'ensembles de données spécifiques à la région pour améliorer la précision de transcription des accents non occidentaux dans les communications de CTA.
English
Effective communication in Air Traffic Control (ATC) is critical to
maintaining aviation safety, yet the challenges posed by accented English
remain largely unaddressed in Automatic Speech Recognition (ASR) systems.
Existing models struggle with transcription accuracy for Southeast
Asian-accented (SEA-accented) speech, particularly in noisy ATC environments.
This study presents the development of ASR models fine-tuned specifically for
Southeast Asian accents using a newly created dataset. Our research achieves
significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82%
on SEA-accented ATC speech. Additionally, the paper highlights the importance
of region-specific datasets and accent-focused training, offering a pathway for
deploying ASR systems in resource-constrained military operations. The findings
emphasize the need for noise-robust training techniques and region-specific
datasets to improve transcription accuracy for non-Western accents in ATC
communications.Summary
AI-Generated Summary