TTS合成データを用いてASRを強化するための自己改善フレームワーク
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
著者: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
要旨
ラベルなしデータセットのみを用いてASR性能を向上させる自己改善型フレームワークを提案する。このプロセスは、既存のASRモデルがラベルなし音声に対して擬似ラベルを生成することから始まり、それらのラベルを用いて高忠実度のテキスト音声合成(TTS)システムを訓練する。その後、合成された音声テキストペアを元のASRシステムにブートストラップし、閉ループ型の自己改善サイクルを完成させる。本フレームワークの有効性を台湾華語音声を用いて実証した。6,000時間のラベルなし音声、適量のテキストデータ、およびAIモデルからの合成コンテンツを活用し、Whisper-large-v2を特殊化したモデルTwisterに適応させた。Twisterは、Whisperと比較して、華語では最大20%、華語-英語のコードスイッチングベンチマークでは最大50%のエラーレート低減を達成した。結果は、本フレームワークが擬似ラベルを用いた自己蒸留アプローチに代わる有力な選択肢であり、低リソースまたはドメイン固有の設定におけるASR性能向上の実用的な道筋を提供することを示している。
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.