Text-only-Domänenanpassung unter Verwendung einer einheitlichen Sprach-Text-Darstellung im Transducer
Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer
June 7, 2023
Autoren: Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma
cs.AI
Zusammenfassung
Die Domänenanpassung unter Verwendung eines reinen Textkorpus stellt eine Herausforderung in der End-to-End (E2E) Spracherkennung dar. Die Anpassung durch die Synthese von Audio aus Text mittels TTS (Text-to-Speech) ist ressourcenintensiv. Wir präsentieren eine Methode zur Erstellung einer einheitlichen Sprach-Text-Repräsentation in einem Conformer Transducer (USTR-CT), um eine schnelle Domänenanpassung mit einem reinen Textkorpus zu ermöglichen. Im Gegensatz zur bisherigen Textogramm-Methode wird in unserer Arbeit ein zusätzlicher Text-Encoder eingeführt, um die Textrepräsentation zu erlernen, der jedoch während der Inferenz entfernt wird, sodass keine Modifikationen für den Online-Einsatz erforderlich sind. Um die Effizienz der Anpassung zu verbessern, werden sowohl Einzelschritt- als auch Mehrschritt-Anpassungen untersucht. Experimente zur Anpassung von LibriSpeech an SPGISpeech zeigen, dass die vorgeschlagene Methode die Wortfehlerrate (WER) in der Zieldomäne relativ um 44 % reduziert, was besser ist als die Ergebnisse der TTS-Methode und der Textogramm-Methode. Zudem wird gezeigt, dass die vorgeschlagene Methode mit der internen Sprachmodellschätzung (ILME) kombiniert werden kann, um die Leistung weiter zu verbessern.
English
Domain adaptation using text-only corpus is challenging in end-to-end(E2E)
speech recognition. Adaptation by synthesizing audio from text through TTS is
resource-consuming. We present a method to learn Unified Speech-Text
Representation in Conformer Transducer(USTR-CT) to enable fast domain
adaptation using the text-only corpus. Different from the previous textogram
method, an extra text encoder is introduced in our work to learn text
representation and is removed during inference, so there is no modification for
online deployment. To improve the efficiency of adaptation, single-step and
multi-step adaptations are also explored. The experiments on adapting
LibriSpeech to SPGISpeech show the proposed method reduces the word error
rate(WER) by relatively 44% on the target domain, which is better than those of
TTS method and textogram method. Also, it is shown the proposed method can be
combined with internal language model estimation(ILME) to further improve the
performance.