Une Recette Empirique pour la Reconnaissance Universelle de Phones
An Empirical Recipe for Universal Phone Recognition
March 30, 2026
Auteurs: Shikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi, Eunjung Yeo, William Chen, Shinji Watanabe, David R. Mortensen
cs.AI
Résumé
La reconnaissance phonétique (RP) est un élément clé pour les tâches de traitement de la parole multilingues et à faibles ressources, mais une performance robuste reste difficile à atteindre. Les modèles très performants axés sur l'anglais ne se généralisent pas à travers les langues, tandis que les modèles multilingues sous-utilisent les représentations pré-entraînées. La manière dont l'échelle des données, l'architecture et l'objectif d'entraînement contribuent à la RP multilingue reste également peu claire. Nous présentons PhoneticXEUS -- entraîné sur des données multilingues à grande échelle et atteignant des performances de pointe à la fois sur la parole multilingue (17,7% PFER) et sur la parole anglaise accentuée (10,6% PFER). Grâce à des ablations contrôlées avec des évaluations couvrant plus de 100 langues dans un cadre unifié, nous établissons empiriquement notre méthode d'entraînement et quantifions l'impact des représentations d'apprentissage auto-supervisé, de l'échelle des données et des fonctions de perte. De plus, nous analysons les motifs d'erreur à travers les familles de langues, la parole accentuée et les traits articulatoires. Toutes les données et tous les codes sont publiés ouvertement.
English
Phone recognition (PR) is a key enabler of multilingual and low-resource speech processing tasks, yet robust performance remains elusive. Highly performant English-focused models do not generalize across languages, while multilingual models underutilize pretrained representations. It also remains unclear how data scale, architecture, and training objective contribute to multilingual PR. We present PhoneticXEUS -- trained on large-scale multilingual data and achieving state-of-the-art performance on both multilingual (17.7% PFER) and accented English speech (10.6% PFER). Through controlled ablations with evaluations across 100+ languages under a unified scheme, we empirically establish our training recipe and quantify the impact of SSL representations, data scale, and loss objectives. In addition, we analyze error patterns across language families, accented speech, and articulatory features. All data and code are released openly.