Эмпирический рецепт универсальной фонемной классификации
An Empirical Recipe for Universal Phone Recognition
March 30, 2026
Авторы: Shikhar Bharadwaj, Chin-Jou Li, Kwanghee Choi, Eunjung Yeo, William Chen, Shinji Watanabe, David R. Mortensen
cs.AI
Аннотация
Распознавание фонем (PR) является ключевым компонентом для решения задач многозадачной обработки речи в условиях многоязычия и ограниченных ресурсов, однако достижение устойчивой производительности остается сложной задачей. Высокопроизводительные модели, ориентированные на английский язык, не обладают способностью к обобщению для других языков, в то время как многоязычные модели неэффективно используют предобученные представления. Также остается неясным, как масштаб данных, архитектура модели и целевая функция обучения влияют на многоязычное распознавание фонем. Мы представляем PhoneticXEUS — модель, обученную на крупномасштабных многоязычных данных и достигающую state-of-the-art результатов как для многоязычной речи (17,7% PFER), так и для акцентированной английской речи (10,6% PFER). Посредством контролируемых абляционных исследований с оценкой на более чем 100 языках в рамках единой схемы мы эмпирически устанавливаем нашу методику обучения и количественно оцениваем влияние SSL-представлений, объема данных и функций потерь. Кроме того, мы анализируем характер ошибок в разрезе языковых семей, акцентированной речи и артикуляционных признаков. Все данные и код находятся в открытом доступе.
English
Phone recognition (PR) is a key enabler of multilingual and low-resource speech processing tasks, yet robust performance remains elusive. Highly performant English-focused models do not generalize across languages, while multilingual models underutilize pretrained representations. It also remains unclear how data scale, architecture, and training objective contribute to multilingual PR. We present PhoneticXEUS -- trained on large-scale multilingual data and achieving state-of-the-art performance on both multilingual (17.7% PFER) and accented English speech (10.6% PFER). Through controlled ablations with evaluations across 100+ languages under a unified scheme, we empirically establish our training recipe and quantify the impact of SSL representations, data scale, and loss objectives. In addition, we analyze error patterns across language families, accented speech, and articulatory features. All data and code are released openly.