PRiSM : Évaluation de la réalisation des phones dans les modèles de parole
PRiSM: Benchmarking Phone Realization in Speech Models
January 20, 2026
papers.authors: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI
papers.abstract
La reconnaissance phonétique (RP) constitue l'interface élémentaire pour la modélisation indépendante de la langue dans le traitement vocal multilingue et l'analyse phonétique. Malgré des efforts prolongés pour développer des systèmes de RP, les évaluations actuelles ne mesurent que la précision superficielle de la transcription. Nous présentons PRiSM, le premier benchmark open-source conçu pour révéler les angles morts de la perception phonétique grâce à une évaluation intrinsèque et extrinsèque des systèmes de RP. PRiSM standardise l'évaluation par transcription et évalue l'utilité en aval dans des contextes cliniques, éducatifs et multilingues à l'aide de sondes de transcription et de représentation. Nous constatons qu'une exposition linguistique diversifiée pendant l'entraînement est essentielle aux performances de la RP, que les modèles encodeur-CTC sont les plus stables, et que les modèles de RP spécialisés surpassent encore les grands modèles linguistiques audio. PRiSM publie le code, les recettes et les jeux de données pour faire progresser le domaine vers des modèles vocaux multilingues dotés de solides capacités phonétiques : https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.