Una Receta Empírica para el Reconocimiento Universal de Fonemas
An Empirical Recipe for Universal Phone Recognition
March 30, 2026
Autores: Shikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi, Eunjung Yeo, William Chen, Shinji Watanabe, David R. Mortensen
cs.AI
Resumen
El reconocimiento fonético (PR) es un habilitador clave para las tareas de procesamiento del habla multilingüe y de recursos limitados, sin embargo, el rendimiento robusto sigue siendo esquivo. Los modelos de alto rendimiento centrados en el inglés no se generalizan entre idiomas, mientras que los modelos multilingües subutilizan las representaciones preentrenadas. También sigue sin estar claro cómo la escala de datos, la arquitectura y el objetivo de entrenamiento contribuyen al PR multilingüe. Presentamos PhoneticXEUS -- entrenado con datos multilingües a gran escala y que logra un rendimiento de vanguardia tanto en habla multilingüe (17.7% PFER) como en habla inglesa acentuada (10.6% PFER). Mediante ablaciones controladas con evaluaciones en más de 100 idiomas bajo un esquema unificado, establecemos empíricamente nuestra receta de entrenamiento y cuantificamos el impacto de las representaciones SSL, la escala de datos y las funciones de pérdida. Además, analizamos los patrones de error entre familias lingüísticas, habla acentuada y rasgos articulatorios. Todos los datos y el código se publican abiertamente.
English
Phone recognition (PR) is a key enabler of multilingual and low-resource speech processing tasks, yet robust performance remains elusive. Highly performant English-focused models do not generalize across languages, while multilingual models underutilize pretrained representations. It also remains unclear how data scale, architecture, and training objective contribute to multilingual PR. We present PhoneticXEUS -- trained on large-scale multilingual data and achieving state-of-the-art performance on both multilingual (17.7% PFER) and accented English speech (10.6% PFER). Through controlled ablations with evaluations across 100+ languages under a unified scheme, we empirically establish our training recipe and quantify the impact of SSL representations, data scale, and loss objectives. In addition, we analyze error patterns across language families, accented speech, and articulatory features. All data and code are released openly.