Un cadre d’auto-affinage pour améliorer la reconnaissance automatique de la parole grâce à des données synthétisées par synthèse vocale.
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
June 10, 2025
Auteurs: Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee
cs.AI
Résumé
Nous proposons un cadre d’auto-affinement qui améliore les performances de la reconnaissance automatique de la parole (ASR) en utilisant uniquement des ensembles de données non annotées. Le processus commence par un modèle ASR existant générant des pseudo-étiquettes sur des données vocales non annotées, qui sont ensuite utilisées pour entraîner un système de synthèse vocale de haute fidélité (TTS). Ensuite, les paires de parole synthétisée et de texte sont intégrées dans le système ASR d’origine, complétant ainsi le cycle d’auto-amélioration en boucle fermée. Nous avons démontré l’efficacité de ce cadre sur des données de parole en mandarin taïwanais. En exploitant 6 000 heures de parole non annotée, une quantité modérée de données textuelles et du contenu synthétique généré par des modèles d’intelligence artificielle, nous avons adapté Whisper-large-v2 en un modèle spécialisé, Twister. Twister réduit les taux d’erreur jusqu’à 20 % sur des benchmarks en mandarin et jusqu’à 50 % sur des benchmarks de code-switching mandarin-anglais par rapport à Whisper. Les résultats mettent en évidence ce cadre comme une alternative convaincante aux approches d’auto-distillation par pseudo-étiquetage et offrent une voie pratique pour améliorer les performances de l’ASR dans des contextes à ressources limitées ou spécifiques à un domaine.
English
We propose a self-refining framework that enhances ASR performance with only
unlabeled datasets. The process starts with an existing ASR model generating
pseudo-labels on unannotated speech, which are then used to train a
high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs
are bootstrapped into the original ASR system, completing the closed-loop
self-improvement cycle. We demonstrated the effectiveness of the framework on
Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a
moderate amount of text data, and synthetic content from the AI models, we
adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error
rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching
benchmarks compared to Whisper. Results highlight the framework as a compelling
alternative to pseudo-labeling self-distillation approaches and provides a
practical pathway for improving ASR performance in low-resource or
domain-specific settings.