Text-only-Domänenanpassung unter Verwendung einer einheitlichen Sprach-Text-Darstellung im Transducer

Zusammenfassung

Die Domänenanpassung unter Verwendung eines reinen Textkorpus stellt eine Herausforderung in der End-to-End (E2E) Spracherkennung dar. Die Anpassung durch die Synthese von Audio aus Text mittels TTS (Text-to-Speech) ist ressourcenintensiv. Wir präsentieren eine Methode zur Erstellung einer einheitlichen Sprach-Text-Repräsentation in einem Conformer Transducer (USTR-CT), um eine schnelle Domänenanpassung mit einem reinen Textkorpus zu ermöglichen. Im Gegensatz zur bisherigen Textogramm-Methode wird in unserer Arbeit ein zusätzlicher Text-Encoder eingeführt, um die Textrepräsentation zu erlernen, der jedoch während der Inferenz entfernt wird, sodass keine Modifikationen für den Online-Einsatz erforderlich sind. Um die Effizienz der Anpassung zu verbessern, werden sowohl Einzelschritt- als auch Mehrschritt-Anpassungen untersucht. Experimente zur Anpassung von LibriSpeech an SPGISpeech zeigen, dass die vorgeschlagene Methode die Wortfehlerrate (WER) in der Zieldomäne relativ um 44 % reduziert, was besser ist als die Ergebnisse der TTS-Methode und der Textogramm-Methode. Zudem wird gezeigt, dass die vorgeschlagene Methode mit der internen Sprachmodellschätzung (ILME) kombiniert werden kann, um die Leistung weiter zu verbessern.

English

Domain adaptation using text-only corpus is challenging in end-to-end(E2E) speech recognition. Adaptation by synthesizing audio from text through TTS is resource-consuming. We present a method to learn Unified Speech-Text Representation in Conformer Transducer(USTR-CT) to enable fast domain adaptation using the text-only corpus. Different from the previous textogram method, an extra text encoder is introduced in our work to learn text representation and is removed during inference, so there is no modification for online deployment. To improve the efficiency of adaptation, single-step and multi-step adaptations are also explored. The experiments on adapting LibriSpeech to SPGISpeech show the proposed method reduces the word error rate(WER) by relatively 44% on the target domain, which is better than those of TTS method and textogram method. Also, it is shown the proposed method can be combined with internal language model estimation(ILME) to further improve the performance.

Text-only-Domänenanpassung unter Verwendung einer einheitlichen Sprach-Text-Darstellung im Transducer

Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer

Zusammenfassung

Support