PRiSM: Evaluación de la Realización Fonética en Modelos de Habla
PRiSM: Benchmarking Phone Realization in Speech Models
January 20, 2026
Autores: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI
Resumen
El reconocimiento fonético (RF) constituye la interfaz atómica para el modelado independiente del idioma en el procesamiento del habla multilingüe y el análisis fonético. A pesar de los esfuerzos prolongados en el desarrollo de sistemas de RF, las evaluaciones actuales solo miden la precisión superficial de la transcripción. Presentamos PRiSM, el primer benchmark de código abierto diseñado para exponer puntos ciegos en la percepción fonética mediante la evaluación intrínseca y extrínseca de sistemas de RF. PRiSM estandariza la evaluación basada en transcripción y evalúa la utilidad descendente en entornos clínicos, educativos y multilingües mediante sondas de transcripción y representación. Nuestros hallazgos indican que la exposición diversa a idiomas durante el entrenamiento es clave para el rendimiento del RF, los modelos codificador-CTC son los más estables, y los modelos de RF especializados aún superan a los Modelos de Lenguaje de Audio a Gran Escala. PRiSM publica código, recetas y conjuntos de datos para impulsar el campo hacia modelos de habla multilingües con capacidad fonética robusta: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.