POWSM: Un Modelo de Fundación de Voz Estilo Susurro Abierto Fonético
POWSM: A Phonetic Open Whisper-Style Speech Foundation Model
October 28, 2025
Autores: Chin-Jou Li, Kalvin Chang, Shikhar Bharadwaj, Eunjung Yeo, Kwanghee Choi, Jian Zhu, David Mortensen, Shinji Watanabe
cs.AI
Resumen
Los recientes avances en el procesamiento del lenguaje hablado han generado un progreso sustancial en tareas fonéticas como el reconocimiento automático del habla (ASR), el reconocimiento de fonemas (PR), la conversión de grafema a fonema (G2P) y la conversión de fonema a grafema (P2G). A pesar de su similitud conceptual, estas tareas se han estudiado principalmente de forma aislada, cada una dependiendo de arquitecturas y conjuntos de datos específicos para cada tarea. En este artículo, presentamos POWSM (Phonetic Open Whisper-style Speech Model), el primer marco unificado capaz de realizar conjuntamente múltiples tareas relacionadas con los fonemas. POWSM permite la conversión fluida entre audio, texto (grafemas) y fonemas, abriendo nuevas posibilidades para el procesamiento del habla universal y en entornos de bajos recursos. Nuestro modelo supera o iguala a modelos especializados de PR de tamaño similar (Wav2Vec2Phoneme y ZIPA) mientras admite conjuntamente G2P, P2G y ASR. Nuestros datos de entrenamiento, código y modelos se han publicado para fomentar la ciencia abierta.
English
Recent advances in spoken language processing have led to substantial
progress in phonetic tasks such as automatic speech recognition (ASR), phone
recognition (PR), grapheme-to-phoneme conversion (G2P), and phoneme-to-grapheme
conversion (P2G). Despite their conceptual similarity, these tasks have largely
been studied in isolation, each relying on task-specific architectures and
datasets. In this paper, we introduce POWSM (Phonetic Open Whisper-style Speech
Model), the first unified framework capable of jointly performing multiple
phone-related tasks. POWSM enables seamless conversion between audio, text
(graphemes), and phones, opening up new possibilities for universal and
low-resource speech processing. Our model outperforms or matches specialized PR
models of similar size (Wav2Vec2Phoneme and ZIPA) while jointly supporting G2P,
P2G, and ASR. Our training data, code and models are released to foster open
science.