ChatPaper.aiChatPaper

Von Dutzenden Stunden zu Zehntausenden: Skalierung der Rückübersetzung für Spracherkennung

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

May 22, 2025
Autoren: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng
cs.AI

Zusammenfassung

Jüngste Fortschritte in der automatischen Spracherkennung (Automatic Speech Recognition, ASR) wurden maßgeblich durch umfangreiche Sprachkorpora vorangetrieben. Die Erweiterung der Abdeckung auf diverse Sprachen mit begrenzten Ressourcen bleibt jedoch eine beträchtliche Herausforderung. Dieses Papier stellt Speech Back-Translation vor, eine skalierbare Pipeline, die mehrsprachige ASR-Modelle verbessert, indem große Textkorpora mithilfe von verfügbaren Text-zu-Sprache-Modellen (Text-to-Speech, TTS) in synthetische Sprache umgewandelt werden. Wir zeigen, dass bereits einige Dutzend Stunden transkribierter realer Sprache ausreichen, um TTS-Modelle effektiv zu trainieren, die synthetische Sprache in einem Umfang von mehreren hundert Mal der ursprünglichen Menge bei hoher Qualität erzeugen können. Um die Qualität der synthetischen Sprache zu bewerten, entwickeln wir ein auf Verständlichkeit basierendes Bewertungsframework und legen klare Schwellenwerte fest, ab denen synthetische Daten das ASR-Training verbessern. Mit Speech Back-Translation erzeugen wir mehr als 500.000 Stunden synthetischer Sprache in zehn Sprachen und setzen das Vortraining von Whisper-large-v3 fort, wodurch wir durchschnittliche Reduktionen der Transkriptionsfehler von über 30\% erreichen. Diese Ergebnisse unterstreichen die Skalierbarkeit und Effektivität von Speech Back-Translation zur Verbesserung mehrsprachiger ASR-Systeme.
English
Recent advances in Automatic Speech Recognition (ASR) have been largely fueled by massive speech corpora. However, extending coverage to diverse languages with limited resources remains a formidable challenge. This paper introduces Speech Back-Translation, a scalable pipeline that improves multilingual ASR models by converting large-scale text corpora into synthetic speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just tens of hours of real transcribed speech can effectively train TTS models to generate synthetic speech at hundreds of times the original volume while maintaining high quality. To evaluate synthetic speech quality, we develop an intelligibility-based assessment framework and establish clear thresholds for when synthetic data benefits ASR training. Using Speech Back-Translation, we generate more than 500,000 hours of synthetic speech in ten languages and continue pre-training Whisper-large-v3, achieving average transcription error reductions of over 30\%. These results highlight the scalability and effectiveness of Speech Back-Translation for enhancing multilingual ASR systems.

Summary

AI-Generated Summary

PDF92May 27, 2025