ChatPaper.aiChatPaper

PRiSM: Avaliação da Realização de Fonemas em Modelos de Fala

PRiSM: Benchmarking Phone Realization in Speech Models

January 20, 2026
Autores: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI

Resumo

A reconhecção fonética (RF) serve como interface atômica para modelagem independente de idioma no processamento de fala cross-lingual e análise fonética. Apesar dos esforços prolongados no desenvolvimento de sistemas de RF, as avaliações atuais medem apenas a precisão superficial da transcrição. Apresentamos o PRiSM, o primeiro benchmark de código aberto projetado para expor pontos cegos na percepção fonética através de avaliação intrínseca e extrínseca de sistemas de RF. O PRiSM padroniza a avaliação baseada em transcrição e avalia a utilidade descendente em contextos clínicos, educacionais e multilíngues com sondas de transcrição e representação. Descobrimos que a exposição diversificada a idiomas durante o treinamento é fundamental para o desempenho da RF, modelos encoder-CTC são os mais estáveis, e modelos especializados de RF ainda superam os Grandes Modelos de Linguagem de Áudio. O PRiSM disponibiliza código, receitas e conjuntos de dados para avançar o campo em direção a modelos de fala multilíngues com capacidade fonética robusta: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.
PDF63March 6, 2026