Adaptação de Domínio Apenas com Texto usando Representação Unificada de Fala-Texto no Transdutor

Resumo

A adaptação de domínio utilizando apenas corpus de texto é um desafio no reconhecimento de fala end-to-end (E2E). A adaptação por meio da síntese de áudio a partir de texto através de TTS (Text-to-Speech) consome muitos recursos. Apresentamos um método para aprender Representação Unificada de Fala e Texto no Conformer Transducer (USTR-CT) para permitir uma rápida adaptação de domínio utilizando apenas corpus de texto. Diferente do método anterior de textograma, um codificador de texto adicional é introduzido em nosso trabalho para aprender a representação de texto e é removido durante a inferência, portanto, não há modificação para implantação online. Para melhorar a eficiência da adaptação, adaptações de passo único e multi-passos também são exploradas. Os experimentos de adaptação do LibriSpeech para o SPGISpeech mostram que o método proposto reduz a taxa de erro de palavras (WER) em 44% relativamente no domínio de destino, o que é melhor do que os métodos TTS e textograma. Além disso, é demonstrado que o método proposto pode ser combinado com a estimativa do modelo de linguagem interno (ILME) para melhorar ainda mais o desempenho.

English

Domain adaptation using text-only corpus is challenging in end-to-end(E2E) speech recognition. Adaptation by synthesizing audio from text through TTS is resource-consuming. We present a method to learn Unified Speech-Text Representation in Conformer Transducer(USTR-CT) to enable fast domain adaptation using the text-only corpus. Different from the previous textogram method, an extra text encoder is introduced in our work to learn text representation and is removed during inference, so there is no modification for online deployment. To improve the efficiency of adaptation, single-step and multi-step adaptations are also explored. The experiments on adapting LibriSpeech to SPGISpeech show the proposed method reduces the word error rate(WER) by relatively 44% on the target domain, which is better than those of TTS method and textogram method. Also, it is shown the proposed method can be combined with internal language model estimation(ILME) to further improve the performance.

Adaptação de Domínio Apenas com Texto usando Representação Unificada de Fala-Texto no Transdutor

Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer

Resumo

Support