ChatPaper.aiChatPaper

PRiSM: Benchmarking der Telefonrealisierung in Sprachmodellen

PRiSM: Benchmarking Phone Realization in Speech Models

January 20, 2026
papers.authors: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI

papers.abstract

Phonerkenning (PR) dient als atomare Schnittstelle für sprachunabhängige Modellierung in der cross-lingualen Sprachverarbeitung und phonetischen Analyse. Trotz langjähriger Bemühungen in der Entwicklung von PR-Systemen messen aktuelle Evaluationen nur die oberflächliche Transkriptionsgenauigkeit. Wir stellen PRiSM vor, den ersten Open-Source-Benchmark, der entwickelt wurde, um blinde Flecken in der phonetischen Wahrnehmung durch intrinsische und extrinsische Evaluation von PR-Systemen aufzudecken. PRiSM standardisiert transkriptionsbasierte Evaluation und bewertet den downstream-Nutzen in klinischen, Bildung- und multilingualen Kontexten mit Transkriptions- und Repräsentations-Tests. Unsere Ergebnisse zeigen, dass diverse Sprachexposition während des Trainings entscheidend für die PR-Leistung ist, Encoder-CTC-Modelle die stabilsten sind und spezialisierte PR-Modelle nach wie vor Large Audio Language Models übertreffen. PRiSM veröffentlicht Code, Rezepte und Datensätze, um das Feld hin zu multilingualen Sprachmodellen mit robuster phonetischer Fähigkeit zu bewegen: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.
PDF52January 22, 2026