ChatPaper.aiChatPaper

PRiSM: Бенчмаркинг реализации телефонов в речевых моделях

PRiSM: Benchmarking Phone Realization in Speech Models

January 20, 2026
Авторы: Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero Jacome, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, David R. Mortensen
cs.AI

Аннотация

Распознавание фонем (PR) служит атомарным интерфейсом для языково-независимого моделирования в кросс-лингвистической обработке речи и фонетическом анализе. Несмотря на длительные усилия по разработке систем PR, современные методы оценки измеряют лишь поверхностную точность транскрипции. Мы представляем PRiSM — первый открытый бенчмарк, предназначенный для выявления слепых зон в фонетическом восприятии посредством внутренней и внешней оценки систем PR. PRiSM стандартизирует оценку на основе транскрипции и проверяет практическую полезность систем в клинических, образовательных и мультиязычных сценариях с помощью проб на транскрипцию и репрезентативность. Мы обнаружили, что разнообразие языков в обучающих данных является ключевым фактором производительности PR, модели типа encoder-CTC демонстрируют наибольшую стабильность, а специализированные модели PR по-прежнему превосходят большие аудио-языковые модели. PRiSM предоставляет код, методики и наборы данных для продвижения области в сторону создания мультиязычных речевых моделей с устойчивой фонетической способностью: https://github.com/changelinglab/prism.
English
Phone recognition (PR) serves as the atomic interface for language-agnostic modeling for cross-lingual speech processing and phonetic analysis. Despite prolonged efforts in developing PR systems, current evaluations only measure surface-level transcription accuracy. We introduce PRiSM, the first open-source benchmark designed to expose blind spots in phonetic perception through intrinsic and extrinsic evaluation of PR systems. PRiSM standardizes transcription-based evaluation and assesses downstream utility in clinical, educational, and multilingual settings with transcription and representation probes. We find that diverse language exposure during training is key to PR performance, encoder-CTC models are the most stable, and specialized PR models still outperform Large Audio Language Models. PRiSM releases code, recipes, and datasets to move the field toward multilingual speech models with robust phonetic ability: https://github.com/changelinglab/prism.
PDF52January 22, 2026