ChatPaper.aiChatPaper

PRiSM: 音声モデルにおける音声実現のベンチマーキング

PRiSM: Benchmarking Phone Realization in Speech Models

January 20, 2026
著者: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI

要旨

音声認識(PR)は、言語に依存しないモデリングのための原子インターフェースとして、クロスリンガル音声処理および音声分析において機能する。PRシステムの開発に長年取り組んできたにもかかわらず、現在の評価は表層的な転写精度のみを測定している。本論文では、PRシステムの内在的・外在的評価を通じて音声知覚の盲点を明らかにする初のオープンソースベンチマーク「PRiSM」を提案する。PRiSMは転写ベースの評価を標準化し、臨床、教育、多言語設定における下流有用性を、転写プローブと表現プローブを用いて評価する。我々の調査により、訓練時の多様な言語への曝露がPR性能の鍵となること、エンコーダー-CTCモデルが最も安定していること、専門的なPRモデルが大規模音声言語モデルを依然として凌駕することが明らかとなった。PRiSMはコード、レシピ、データセットを公開し、頑健な音声能力を備えた多言語音声モデルへの発展を促進する:https://github.com/changelinglab/prism
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.
PDF52January 22, 2026