ChatPaper.aiChatPaper

POWSM: 음성 기반 오픈 위스퍼 스타일 파운데이션 모델

POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

October 28, 2025
저자: Chin-Jou Li, Kalvin Chang, Shikhar Bharadwaj, Eunjung Yeo, Kwanghee Choi, Jian Zhu, David Mortensen, Shinji Watanabe
cs.AI

초록

구어 언어 처리의 최근 발전은 자동 음성 인식(ASR), 음소 인식(PR), 자소-음소 변환(G2P), 음소-자소 변환(P2G)과 같은 음운 작업에서 상당한 진전을 가져왔습니다. 개념적 유사성에도 불구하고, 이러한 작업들은 주로 각각 독립적으로 연구되어 왔으며, 각각 작업별 맞춤형 아키텍처와 데이터셋에 의존해왔습니다. 본 논문에서는 음운 관련 다중 작업을 통합적으로 수행할 수 있는 최초의 프레임워크인 POWSM(Phonetic Open Whisper-style Speech Model)을 소개합니다. POWSM은 오디오, 텍스트(자소), 음소 간의 원활한 변환을 가능하게 하여 범용 및 저자원 음성 처리에 새로운 가능성을 열어줍니다. 우리의 모델은 유사한 규모의 전용 PR 모델(Wav2Vec2Phoneme 및 ZIPA)을 능가하거나 동등한 성능을 보이면서도 G2P, P2G, ASR을 통합적으로 지원합니다. 공개 과학을 촉진하기 위해 학습 데이터, 코드 및 모델을 공개합니다.
English
Recent advances in spoken language processing have led to substantial progress in phonetic tasks such as automatic speech recognition (ASR), phone recognition (PR), grapheme-to-phoneme conversion (G2P), and phoneme-to-grapheme conversion (P2G). Despite their conceptual similarity, these tasks have largely been studied in isolation, each relying on task-specific architectures and datasets. In this paper, we introduce POWSM (Phonetic Open Whisper-style Speech Model), the first unified framework capable of jointly performing multiple phone-related tasks. POWSM enables seamless conversion between audio, text (graphemes), and phones, opening up new possibilities for universal and low-resource speech processing. Our model outperforms or matches specialized PR models of similar size (Wav2Vec2Phoneme and ZIPA) while jointly supporting G2P, P2G, and ASR. Our training data, code and models are released to foster open science.
PDF21December 2, 2025