Een zelfverfijnend raamwerk voor het verbeteren van ASR met behulp van TTS-gesynthetiseerde gegevens
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
Auteurs: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
Samenvatting
We stellen een zelfverfijnend raamwerk voor dat de prestaties van ASR verbetert met alleen ongeannoteerde datasets. Het proces begint met een bestaand ASR-model dat pseudo-labels genereert op niet-geannoteerde spraak, die vervolgens worden gebruikt om een hoogwaardig text-to-speech (TTS) systeem te trainen. Vervolgens worden gesynthetiseerde spraak-tekstparen teruggevoerd in het oorspronkelijke ASR-systeem, waardoor de gesloten lus van zelfverbetering wordt voltooid. We hebben de effectiviteit van het raamwerk aangetoond op Taiwanese Mandarijnse spraak. Door gebruik te maken van 6.000 uur ongeannoteerde spraak, een matige hoeveelheid tekstdata en synthetische inhoud van de AI-modellen, hebben we Whisper-large-v2 aangepast tot een gespecialiseerd model, Twister. Twister verlaagt de foutpercentages met maximaal 20% op Mandarijn en 50% op Mandarijn-Engels code-switching benchmarks in vergelijking met Whisper. De resultaten benadrukken het raamwerk als een overtuigend alternatief voor pseudo-labeling zelfdistillatiebenaderingen en bieden een praktische weg om ASR-prestaties te verbeteren in situaties met beperkte bronnen of domeinspecifieke instellingen.
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.