Ein selbstverfeinerndes Framework zur Verbesserung der automatischen Spracherkennung durch TTS-synthetisierte Daten
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
Autoren: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
Zusammenfassung
Wir schlagen ein selbstverfeinerndes Framework vor, das die Leistung von ASR (Automatische Spracherkennung) ausschließlich mit ungelabelten Datensätzen verbessert. Der Prozess beginnt damit, dass ein bestehendes ASR-Modell Pseudolabels auf nicht annotierter Sprache generiert, die dann verwendet werden, um ein hochpräzises Text-to-Speech (TTS)-System zu trainieren. Anschließend werden synthetisierte Sprach-Text-Paare in das ursprüngliche ASR-System integriert, wodurch der geschlossene Selbstverbesserungszyklus abgeschlossen wird. Wir haben die Wirksamkeit des Frameworks anhand von taiwanesischem Mandarin demonstriert. Durch die Nutzung von 6.000 Stunden ungelabelter Sprache, einer moderaten Menge an Textdaten und synthetischen Inhalten aus den KI-Modellen haben wir Whisper-large-v2 in ein spezialisiertes Modell namens Twister adaptiert. Twister reduziert die Fehlerraten im Vergleich zu Whisper um bis zu 20 % bei Mandarin und 50 % bei Mandarin-Englisch Code-Switching-Benchmarks. Die Ergebnisse unterstreichen, dass das Framework eine überzeugende Alternative zu Pseudolabeling-Selbstdistillationsansätzen darstellt und einen praktischen Weg zur Verbesserung der ASR-Leistung in ressourcenarmen oder domänenspezifischen Umgebungen bietet.
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.