ChatPaper.aiChatPaper

PRiSM: Benchmarken van Telefoonrealisatie in Spraakmodellen

PRiSM: Benchmarking Phone Realization in Speech Models

January 20, 2026
Auteurs: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI

Samenvatting

Foneemherkenning (PR) fungeert als de atomische interface voor taalagnostische modellering bij cross-linguale spraakverwerking en fonetische analyse. Ondanks langdurige inspanningen in de ontwikkeling van PR-systemen, meten huidige evaluaties alleen de oppervlakkige transcriptienauwkeurigheid. Wij introduceren PRiSM, de eerste open-source benchmark die is ontworpen om blinde vlekken in de fonetische perceptie bloot te leggen door middel van intrinsieke en extrinsieke evaluatie van PR-systemen. PRiSM standaardiseert op transcriptie gebaseerde evaluatie en beoordeelt de downstream-toepasbaarheid in klinische, educatieve en meertalige contexten met transcriptie- en representatietests. Wij constateren dat diverse taalblootstelling tijdens de training cruciaal is voor PR-prestaties, dat encoder-CTC-modellen het meest stabiel zijn, en dat gespecialiseerde PR-modellen nog steeds beter presteren dan Large Audio Language Models. PRiSM brengt code, recepten en datasets uit om het vakgebied te bewegen naar meertalige spraakmodellen met robuuste fonetische capaciteiten: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.
PDF63March 6, 2026