Adaptation de la Reconnaissance Automatique de la Parole pour les Communications en Contrôle de la Circulation Aérienne avec Accent.

Résumé

La communication efficace dans le Contrôle du Trafic Aérien (CTA) est essentielle pour garantir la sécurité de l'aviation, cependant les défis posés par l'anglais avec accent restent largement non résolus dans les systèmes de Reconnaissance Automatique de la Parole (RAP). Les modèles existants rencontrent des difficultés en termes de précision de transcription pour la parole avec accent d'Asie du Sud-Est (accent d'ASE), notamment dans des environnements bruyants de CTA. Cette étude présente le développement de modèles de RAP affinés spécifiquement pour les accents d'Asie du Sud-Est en utilisant un ensemble de données nouvellement créé. Notre recherche obtient des améliorations significatives, atteignant un Taux d'Erreur de Mots (TEM) de 0,0982 ou 9,82% pour la parole avec accent d'ASE en CTA. De plus, l'article souligne l'importance des ensembles de données spécifiques à la région et de la formation axée sur l'accent, offrant une voie pour le déploiement de systèmes de RAP dans des opérations militaires aux ressources limitées. Les résultats mettent en avant la nécessité de techniques d'entraînement robustes au bruit et d'ensembles de données spécifiques à la région pour améliorer la précision de transcription des accents non occidentaux dans les communications de CTA.

English

Effective communication in Air Traffic Control (ATC) is critical to maintaining aviation safety, yet the challenges posed by accented English remain largely unaddressed in Automatic Speech Recognition (ASR) systems. Existing models struggle with transcription accuracy for Southeast Asian-accented (SEA-accented) speech, particularly in noisy ATC environments. This study presents the development of ASR models fine-tuned specifically for Southeast Asian accents using a newly created dataset. Our research achieves significant improvements, achieving a Word Error Rate (WER) of 0.0982 or 9.82% on SEA-accented ATC speech. Additionally, the paper highlights the importance of region-specific datasets and accent-focused training, offering a pathway for deploying ASR systems in resource-constrained military operations. The findings emphasize the need for noise-robust training techniques and region-specific datasets to improve transcription accuracy for non-Western accents in ATC communications.