ChatPaper.aiChatPaper

PRiSM: Benchmarking della Realizzazione Fonologica nei Modelli di Elaborazione del Parlato

PRiSM: Benchmarking Phone Realization in Speech Models

January 20, 2026
Autori: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI

Abstract

La riconoscenza fonemica (PR) costituisce l'interfaccia atomica per la modellazione agnostica al linguaggio nell'elaborazione cross-linguale del parlato e nell'analisi fonetica. Nonostante gli sforzi prolungati nello sviluppo di sistemi di PR, le valutazioni attuali misurano solo l'accuratezza superficiale della trascrizione. Presentiamo PRiSM, il primo benchmark open-source progettato per evidenziare i punti ciechi nella percezione fonetica attraverso una valutazione intrinseca ed estrinseca dei sistemi di PR. PRiSM standardizza la valutazione basata sulla trascrizione e valuta l'utilità downstream in contesti clinici, educativi e multilingue mediante sonde di trascrizione e rappresentazione. Scopriamo che l'esposizione a lingue diverse durante l'addestramento è fondamentale per le prestazioni della PR, i modelli encoder-CTC sono i più stabili e i modelli di PR specializzati superano ancora i Large Audio Language Model. PRiSM rilascia codice, ricette e dataset per indirizzare il campo verso modelli vocali multilingue con solide capacità fonetiche: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.
PDF63March 6, 2026