Un cadre d’auto-affinage pour améliorer la reconnaissance automatique de la parole grâce à des données synthétisées par synthèse vocale.

papers.abstract

Nous proposons un cadre d’auto-affinement qui améliore les performances de la reconnaissance automatique de la parole (ASR) en utilisant uniquement des ensembles de données non annotées. Le processus commence par un modèle ASR existant générant des pseudo-étiquettes sur des données vocales non annotées, qui sont ensuite utilisées pour entraîner un système de synthèse vocale de haute fidélité (TTS). Ensuite, les paires de parole synthétisée et de texte sont intégrées dans le système ASR d’origine, complétant ainsi le cycle d’auto-amélioration en boucle fermée. Nous avons démontré l’efficacité de ce cadre sur des données de parole en mandarin taïwanais. En exploitant 6 000 heures de parole non annotée, une quantité modérée de données textuelles et du contenu synthétique généré par des modèles d’intelligence artificielle, nous avons adapté Whisper-large-v2 en un modèle spécialisé, Twister. Twister réduit les taux d’erreur jusqu’à 20 % sur des benchmarks en mandarin et jusqu’à 50 % sur des benchmarks de code-switching mandarin-anglais par rapport à Whisper. Les résultats mettent en évidence ce cadre comme une alternative convaincante aux approches d’auto-distillation par pseudo-étiquetage et offrent une voie pratique pour améliorer les performances de l’ASR dans des contextes à ressources limitées ou spécifiques à un domaine.

English

We propose a self-refining framework that enhances ASR performance with only unlabeled datasets. The process starts with an existing ASR model generating pseudo-labels on unannotated speech, which are then used to train a high-fidelity text-to-speech (TTS) system. Then, synthesized speech text pairs are bootstrapped into the original ASR system, completing the closed-loop self-improvement cycle. We demonstrated the effectiveness of the framework on Taiwanese Mandarin speech. Leveraging 6,000 hours of unlabeled speech, a moderate amount of text data, and synthetic content from the AI models, we adapt Whisper-large-v2 into a specialized model, Twister. Twister reduces error rates by up to 20% on Mandarin and 50% on Mandarin-English code-switching benchmarks compared to Whisper. Results highlight the framework as a compelling alternative to pseudo-labeling self-distillation approaches and provides a practical pathway for improving ASR performance in low-resource or domain-specific settings.

Un cadre d’auto-affinage pour améliorer la reconnaissance automatique de la parole grâce à des données synthétisées par synthèse vocale.

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

papers.abstract

Support