ChatPaper.aiChatPaper

Da Decine di Ore a Decine di Migliaia: Scalabilità della Back-Translation per il Riconoscimento Vocale

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

May 22, 2025
Autori: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI

Abstract

I recenti progressi nel campo del Riconoscimento Automatico del Parlato (ASR) sono stati in gran parte alimentati da enormi corpora di dati vocali. Tuttavia, estendere la copertura a lingue diverse con risorse limitate rimane una sfida formidabile. Questo articolo introduce il Speech Back-Translation, una pipeline scalabile che migliora i modelli ASR multilingue convertendo grandi corpora di testo in sintesi vocale tramite modelli text-to-speech (TTS) già disponibili. Dimostriamo che bastano poche decine di ore di discorso reale trascritto per addestrare efficacemente modelli TTS a generare sintesi vocale con un volume centinaia di volte superiore rispetto all'originale, mantenendo un'elevata qualità. Per valutare la qualità della sintesi vocale, sviluppiamo un framework di valutazione basato sull'intelligibilità e stabiliamo soglie chiare per determinare quando i dati sintetici sono utili per l'addestramento ASR. Utilizzando il Speech Back-Translation, generiamo oltre 500.000 ore di sintesi vocale in dieci lingue e continuiamo il pre-addestramento di Whisper-large-v3, ottenendo riduzioni medie degli errori di trascrizione superiori al 30%. Questi risultati evidenziano la scalabilità e l'efficacia del Speech Back-Translation per potenziare i sistemi ASR multilingue.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely fueled by massive speech corpora. However, extending coverage to diverse languages with limited resources remains a formidable challenge. This paper introduces Speech Back-Translation, a scalable pipeline that improves multilingual ASR models by converting large-scale text corpora into synthetic speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just tens of hours of real transcribed speech can effectively train TTS models to generate synthetic speech at hundreds of times the original volume while maintaining high quality. To evaluate synthetic speech quality, we develop an intelligibility-based assessment framework and establish clear thresholds for when synthetic data benefits ASR training. Using Speech Back-Translation, we generate more than 500,000 hours of synthetic speech in ten languages and continue pre-training Whisper-large-v3, achieving average transcription error reductions of over 30\%. These results highlight the scalability and effectiveness of Speech Back-Translation for enhancing multilingual ASR systems.
PDF92May 27, 2025