De decenas de horas a decenas de miles: escalando la traducción inversa para el reconocimiento del habla
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
May 22, 2025
Autores: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI
Resumen
Los recientes avances en el Reconocimiento Automático del Habla (ASR, por sus siglas en inglés) han sido impulsados en gran medida por el uso de grandes corpus de voz. Sin embargo, extender la cobertura a idiomas diversos con recursos limitados sigue siendo un desafío formidable. Este artículo presenta Speech Back-Translation, una pipeline escalable que mejora los modelos multilingües de ASR al convertir grandes corpus de texto en voz sintética mediante modelos de texto a voz (TTS) disponibles comercialmente. Demostramos que solo unas decenas de horas de voz transcrita real pueden entrenar eficazmente modelos TTS para generar voz sintética a un volumen cientos de veces mayor que el original, manteniendo una alta calidad. Para evaluar la calidad de la voz sintética, desarrollamos un marco de evaluación basado en la inteligibilidad y establecemos umbrales claros para determinar cuándo los datos sintéticos benefician el entrenamiento de ASR. Utilizando Speech Back-Translation, generamos más de 500,000 horas de voz sintética en diez idiomas y continuamos el preentrenamiento de Whisper-large-v3, logrando reducciones promedio de errores de transcripción superiores al 30%. Estos resultados destacan la escalabilidad y efectividad de Speech Back-Translation para mejorar los sistemas multilingües de ASR.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely
fueled by massive speech corpora. However, extending coverage to diverse
languages with limited resources remains a formidable challenge. This paper
introduces Speech Back-Translation, a scalable pipeline that improves
multilingual ASR models by converting large-scale text corpora into synthetic
speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just
tens of hours of real transcribed speech can effectively train TTS models to
generate synthetic speech at hundreds of times the original volume while
maintaining high quality. To evaluate synthetic speech quality, we develop an
intelligibility-based assessment framework and establish clear thresholds for
when synthetic data benefits ASR training. Using Speech Back-Translation, we
generate more than 500,000 hours of synthetic speech in ten languages and
continue pre-training Whisper-large-v3, achieving average transcription error
reductions of over 30\%. These results highlight the scalability and
effectiveness of Speech Back-Translation for enhancing multilingual ASR
systems.Summary
AI-Generated Summary