De dizaines d'heures à des dizaines de milliers : mise à l'échelle de la rétro-traduction pour la reconnaissance vocale
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
May 22, 2025
Auteurs: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI
Résumé
Les récents progrès en Reconnaissance Automatique de la Parole (ASR) ont été largement alimentés par des corpus vocaux massifs. Cependant, étendre la couverture à des langues diverses avec des ressources limitées reste un défi de taille. Cet article présente la Traduction Inverse de la Parole (Speech Back-Translation), un pipeline évolutif qui améliore les modèles multilingues d'ASR en convertissant des corpus textuels à grande échelle en parole synthétique via des modèles de synthèse vocale (TTS) prêts à l'emploi. Nous démontrons que seulement quelques dizaines d'heures de parole transrite réelle peuvent efficacement entraîner des modèles TTS pour générer de la parole synthétique à des volumes des centaines de fois supérieurs tout en maintenant une qualité élevée. Pour évaluer la qualité de la parole synthétique, nous développons un cadre d'évaluation basé sur l'intelligibilité et établissons des seuils clairs pour déterminer quand les données synthétiques bénéficient à l'entraînement de l'ASR. En utilisant la Traduction Inverse de la Parole, nous générons plus de 500 000 heures de parole synthétique dans dix langues et poursuivons le pré-entraînement de Whisper-large-v3, obtenant des réductions moyennes des erreurs de transcription de plus de 30 %. Ces résultats mettent en évidence l'évolutivité et l'efficacité de la Traduction Inverse de la Parole pour améliorer les systèmes multilingues d'ASR.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely
fueled by massive speech corpora. However, extending coverage to diverse
languages with limited resources remains a formidable challenge. This paper
introduces Speech Back-Translation, a scalable pipeline that improves
multilingual ASR models by converting large-scale text corpora into synthetic
speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just
tens of hours of real transcribed speech can effectively train TTS models to
generate synthetic speech at hundreds of times the original volume while
maintaining high quality. To evaluate synthetic speech quality, we develop an
intelligibility-based assessment framework and establish clear thresholds for
when synthetic data benefits ASR training. Using Speech Back-Translation, we
generate more than 500,000 hours of synthetic speech in ten languages and
continue pre-training Whisper-large-v3, achieving average transcription error
reductions of over 30\%. These results highlight the scalability and
effectiveness of Speech Back-Translation for enhancing multilingual ASR
systems.Summary
AI-Generated Summary