PRiSM: 음성 모델의 발음 실현 성능 벤치마킹
PRiSM: Benchmarking Phone Realization in Speech Models
January 20, 2026
저자: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI
초록
음성 인식(Phone Recognition, PR)은 교차 언어 음성 처리 및 음성 분석을 위한 언어 중립적 모델링의 기본 인터페이스 역할을 합니다. 오랜 기간 PR 시스템 개발 노력이 지속되어 왔음에도 불구하고, 현재의 평가는 표면적인 전사 정확도만을 측정하고 있습니다. 본 논문은 PR 시스템의 내적 및 외적 평가를 통해 음성 인식의 맹점을 드러내도록 설계된 최초의 오픈소스 벤치마크인 PRiSM을 소개합니다. PRiSM은 전사 기반 평가를 표준화하고, 전사 및 표현 프로브를 활용하여 임상, 교육, 다국어 환경에서의 하위 작업 유용성을 평가합니다. 우리는 훈련 중 다양한 언어 노출이 PR 성능의 핵심 요소이며, 인코더-CTC 모델이 가장 안정적이며, 특화된 PR 모델이 여전히 대규모 오디오 언어 모델보다 성능이 우수함을 발견했습니다. PRiSM은 코드, 레시피 및 데이터세트를 공개하여 강력한 음성 능력을 가진 다국어 음성 모델 분야의 발전을 촉진합니다: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.