Denoising LM: Expandindo os Limites dos Modelos de Correção de Erros para Reconhecimento de Fala
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
Autores: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
Resumo
Modelos de linguagem (LMs) têm sido usados há muito tempo para melhorar os resultados de sistemas de reconhecimento automático de fala (ASR), mas eles não têm conhecimento dos erros que os sistemas ASR cometem. Modelos de correção de erros são projetados para corrigir erros de ASR, no entanto, eles mostraram pouca melhoria em relação aos LMs tradicionais, principalmente devido à falta de dados de treinamento supervisionados. Neste artigo, apresentamos o Denoising LM (DLM), que é um modelo de correção de erros em escala treinado com grandes quantidades de dados sintéticos, superando significativamente tentativas anteriores e alcançando um novo estado da arte em desempenho de ASR. Usamos sistemas de texto-para-fala (TTS) para sintetizar áudio, que é alimentado em um sistema ASR para produzir hipóteses ruidosas, que são então pareadas com os textos originais para treinar o DLM. O DLM tem vários ingredientes-chave: (i) modelo e dados em escala ampliada; (ii) uso de sistemas TTS multi-falantes; (iii) combinação de múltiplas estratégias de aumento de ruído; e (iv) novas técnicas de decodificação. Com um ASR Transformer-CTC, o DLM alcança uma taxa de erro de palavras (WER) de 1,5% no test-clean e 3,3% WER no test-other do Librispeech, que, até onde sabemos, são os melhores números relatados no cenário onde nenhum dado de áudio externo é usado, e até mesmo se equiparam a métodos auto-supervisionados que usam dados de áudio externos. Além disso, um único DLM é aplicável a diferentes ASRs, superando amplamente o desempenho da reavaliação convencional baseada em busca por feixe com LM. Esses resultados indicam que modelos de correção de erros devidamente investigados têm o potencial de substituir os LMs convencionais, mantendo a chave para um novo nível de precisão em sistemas ASR.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.