Denoising LM : Repousser les limites des modèles de correction d'erreurs pour la reconnaissance vocale

papers.abstract

Les modèles de langage (LMs) sont depuis longtemps utilisés pour améliorer les résultats des systèmes de reconnaissance automatique de la parole (ASR), mais ils ne sont pas conscients des erreurs commises par ces systèmes. Les modèles de correction d'erreurs sont conçus pour corriger les erreurs de l'ASR, mais ils ont montré peu d'amélioration par rapport aux LMs traditionnels, principalement en raison du manque de données d'entraînement supervisées. Dans cet article, nous présentons le Denoising LM (DLM), un modèle de correction d'erreurs à grande échelle entraîné avec d'énormes quantités de données synthétiques, surpassant largement les tentatives précédentes tout en atteignant de nouvelles performances de pointe en ASR. Nous utilisons des systèmes de synthèse vocale (TTS) pour générer des audios, qui sont ensuite traités par un système ASR pour produire des hypothèses bruitées, puis associés aux textes originaux pour entraîner le DLM. Le DLM comprend plusieurs éléments clés : (i) un modèle et des données à grande échelle ; (ii) l'utilisation de systèmes TTS multi-locuteurs ; (iii) la combinaison de plusieurs stratégies d'augmentation de bruit ; et (iv) de nouvelles techniques de décodage. Avec un ASR Transformer-CTC, le DLM atteint un taux d'erreur sur les mots (WER) de 1,5 % sur test-clean et de 3,3 % sur test-other sur Librispeech, ce qui, à notre connaissance, sont les meilleurs résultats rapportés dans un contexte où aucune donnée audio externe n'est utilisée, et qui égalent même les méthodes auto-supervisées utilisant des données audio externes. De plus, un seul DLM est applicable à différents ASRs, surpassant largement les performances du réétiquetage par recherche en faisceau basé sur les LMs conventionnels. Ces résultats indiquent que les modèles de correction d'erreurs, lorsqu'ils sont correctement étudiés, ont le potentiel de remplacer les LMs conventionnels, ouvrant la voie à un nouveau niveau de précision dans les systèmes ASR.

English

Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a scaled error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several key ingredients: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on test-other on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.

Denoising LM : Repousser les limites des modèles de correction d'erreurs pour la reconnaissance vocale

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

papers.abstract

Support