POWSM: 音声学的オープン・ウィスパー様式音声基盤モデル
POWSM: A Phonetic Open Whisper-Style Speech Foundation Model
October 28, 2025
著者: Chin-Jou Li, Kalvin Chang, Shikhar Bharadwaj, Eunjung Yeo, Kwanghee Choi, Jian Zhu, David Mortensen, Shinji Watanabe
cs.AI
要旨
音声言語処理の最近の進歩により、自動音声認識(ASR)、音素認識(PR)、文字-音素変換(G2P)、音素-文字変換(P2G)といった音声関連タスクにおいて大幅な進展が見られている。概念的類似性にもかかわらず、これらのタスクはこれまで個別に研究されることが多く、それぞれがタスク固有のアーキテクチャとデータセットに依存してきた。本論文では、複数の音声関連タスクを統合的に実行可能な初のフレームワークであるPOWSM(Phonetic Open Whisper-style Speech Model)を提案する。POWSMは音声、文字、音素間のシームレスな変換を可能とし、普遍的な音声処理および低リソース音声処理の新たな可能性を拓く。提案モデルは、類似サイズの専門PRモデル(Wav2Vec2PhonemeおよびZIPA)を性能で凌駕あるいは同等でありながら、G2P、P2G、ASRを統合的にサポートする。研究の透明性確保のため、学習データ、コード及びモデルを公開する。
English
Recent advances in spoken language processing have led to substantial
progress in phonetic tasks such as automatic speech recognition (ASR), phone
recognition (PR), grapheme-to-phoneme conversion (G2P), and phoneme-to-grapheme
conversion (P2G). Despite their conceptual similarity, these tasks have largely
been studied in isolation, each relying on task-specific architectures and
datasets. In this paper, we introduce POWSM (Phonetic Open Whisper-style Speech
Model), the first unified framework capable of jointly performing multiple
phone-related tasks. POWSM enables seamless conversion between audio, text
(graphemes), and phones, opening up new possibilities for universal and
low-resource speech processing. Our model outperforms or matches specialized PR
models of similar size (Wav2Vec2Phoneme and ZIPA) while jointly supporting G2P,
P2G, and ASR. Our training data, code and models are released to foster open
science.