Denoising LM : Repousser les limites des modèles de correction d'erreurs pour la reconnaissance vocale
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
Auteurs: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
Résumé
Les modèles de langage (LMs) sont depuis longtemps utilisés pour améliorer les résultats des systèmes de reconnaissance automatique de la parole (ASR), mais ils ne sont pas conscients des erreurs commises par ces systèmes. Les modèles de correction d'erreurs sont conçus pour corriger les erreurs de l'ASR, mais ils ont montré peu d'amélioration par rapport aux LMs traditionnels, principalement en raison du manque de données d'entraînement supervisées. Dans cet article, nous présentons le Denoising LM (DLM), un modèle de correction d'erreurs à grande échelle entraîné avec d'énormes quantités de données synthétiques, surpassant largement les tentatives précédentes tout en atteignant de nouvelles performances de pointe en ASR. Nous utilisons des systèmes de synthèse vocale (TTS) pour générer des audios, qui sont ensuite traités par un système ASR pour produire des hypothèses bruitées, puis associés aux textes originaux pour entraîner le DLM. Le DLM comprend plusieurs éléments clés : (i) un modèle et des données à grande échelle ; (ii) l'utilisation de systèmes TTS multi-locuteurs ; (iii) la combinaison de plusieurs stratégies d'augmentation de bruit ; et (iv) de nouvelles techniques de décodage. Avec un ASR Transformer-CTC, le DLM atteint un taux d'erreur sur les mots (WER) de 1,5 % sur test-clean et de 3,3 % sur test-other sur Librispeech, ce qui, à notre connaissance, sont les meilleurs résultats rapportés dans un contexte où aucune donnée audio externe n'est utilisée, et qui égalent même les méthodes auto-supervisées utilisant des données audio externes. De plus, un seul DLM est applicable à différents ASRs, surpassant largement les performances du réétiquetage par recherche en faisceau basé sur les LMs conventionnels. Ces résultats indiquent que les modèles de correction d'erreurs, lorsqu'ils sont correctement étudiés, ont le potentiel de remplacer les LMs conventionnels, ouvrant la voie à un nouveau niveau de précision dans les systèmes ASR.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.Summary
AI-Generated Summary