ChatPaper.aiChatPaper

Ein selbstverfeinerndes Framework zur Verbesserung der automatischen Spracherkennung durch TTS-synthetisierte Daten

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

June 10, 2025
Autoren: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI

Zusammenfassung

Wir schlagen ein selbstverfeinerndes Framework vor, das die Leistung von ASR (Automatische Spracherkennung) ausschließlich mit ungelabelten Datensätzen verbessert. Der Prozess beginnt damit, dass ein bestehendes ASR-Modell Pseudolabels auf nicht annotierter Sprache generiert, die dann verwendet werden, um ein hochpräzises Text-to-Speech (TTS)-System zu trainieren. Anschließend werden synthetisierte Sprach-Text-Paare in das ursprüngliche ASR-System integriert, wodurch der geschlossene Selbstverbesserungszyklus abgeschlossen wird. Wir haben die Wirksamkeit des Frameworks anhand von taiwanesischem Mandarin demonstriert. Durch die Nutzung von 6.000 Stunden ungelabelter Sprache, einer moderaten Menge an Textdaten und synthetischen Inhalten aus den KI-Modellen haben wir Whisper-large-v2 in ein spezialisiertes Modell namens Twister adaptiert. Twister reduziert die Fehlerraten im Vergleich zu Whisper um bis zu 20 % bei Mandarin und 50 % bei Mandarin-Englisch Code-Switching-Benchmarks. Die Ergebnisse unterstreichen, dass das Framework eine überzeugende Alternative zu Pseudolabeling-Selbstdistillationsansätzen darstellt und einen praktischen Weg zur Verbesserung der ASR-Leistung in ressourcenarmen oder domänenspezifischen Umgebungen bietet.
English
We propose a self-refining framework that enhances ASR performance with only unlabeled datasets. The process starts with an existing ASR model generating pseudo-labels on unannotated speech, which are then used to train a high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs are bootstrapped into the original ASR system, completing the closed-loop self-improvement cycle. We demonstrated the effectiveness of the framework on Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a moderate amount of text data, and synthetic content from the AI models, we adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching benchmarks compared to Whisper. Results highlight the framework as a compelling alternative to pseudo-labeling self-distillation approaches and provides a practical pathway for improving ASR performance in low-resource or domain-specific settings.
PDF42June 16, 2025