Van tientallen uren naar tienduizenden: het opschalen van back-translatie voor spraakherkenning
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
May 22, 2025
Auteurs: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI
Samenvatting
Recente vooruitgang in Automatische Spraakherkenning (ASR) is grotendeels aangedreven door enorme spraakcorpora. Het uitbreiden van de dekking naar diverse talen met beperkte middelen blijft echter een aanzienlijke uitdaging. Dit artikel introduceert Speech Back-Translation, een schaalbare pijplijn die meertalige ASR-modellen verbetert door grootschalige tekstcorpora om te zetten in synthetische spraak via kant-en-klare tekst-naar-spraak (TTS) modellen. We tonen aan dat slechts tientallen uren van echte getranscribeerde spraak effectief kunnen worden gebruikt om TTS-modellen te trainen die synthetische spraak genereren op honderden keren het oorspronkelijke volume, terwijl een hoge kwaliteit behouden blijft. Om de kwaliteit van synthetische spraak te evalueren, ontwikkelen we een beoordelingskader gebaseerd op verstaanbaarheid en stellen we duidelijke drempels vast voor wanneer synthetische data voordelig zijn voor ASR-training. Met behulp van Speech Back-Translation genereren we meer dan 500.000 uur aan synthetische spraak in tien talen en zetten we de pre-training van Whisper-large-v3 voort, waarbij we gemiddelde transcriptiefouten met meer dan 30\% verminderen. Deze resultaten onderstrepen de schaalbaarheid en effectiviteit van Speech Back-Translation voor het verbeteren van meertalige ASR-systemen.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely
fueled by massive speech corpora. However, extending coverage to diverse
languages with limited resources remains a formidable challenge. This paper
introduces Speech Back-Translation, a scalable pipeline that improves
multilingual ASR models by converting large-scale text corpora into synthetic
speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just
tens of hours of real transcribed speech can effectively train TTS models to
generate synthetic speech at hundreds of times the original volume while
maintaining high quality. To evaluate synthetic speech quality, we develop an
intelligibility-based assessment framework and establish clear thresholds for
when synthetic data benefits ASR training. Using Speech Back-Translation, we
generate more than 500,000 hours of synthetic speech in ten languages and
continue pre-training Whisper-large-v3, achieving average transcription error
reductions of over 30\%. These results highlight the scalability and
effectiveness of Speech Back-Translation for enhancing multilingual ASR
systems.