ChatPaper.aiChatPaper

Rauschunterdrückendes LM: Erweiterung der Grenzen von Fehlerkorrekturmodellen für die Spracherkennung

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

May 24, 2024
papers.authors: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI

papers.abstract

Sprachmodelle (LMs) werden seit langem verwendet, um die Ergebnisse von automatischen Spracherkennungssystemen (ASR) zu verbessern, sind jedoch nicht über die Fehler informiert, die ASR-Systeme machen. Fehlerkorrekturmodelle sind darauf ausgelegt, ASR-Fehler zu beheben, zeigten jedoch nur geringe Verbesserungen gegenüber herkömmlichen LMs, hauptsächlich aufgrund des Mangels an überwachungsbezogenen Trainingsdaten. In diesem Papier stellen wir das Denoising LM (DLM) vor, das ein skaliertes Fehlerkorrekturmodell ist, das mit umfangreichen Mengen an synthetischen Daten trainiert wurde, die deutlich über bisherige Versuche hinausgehen und gleichzeitig eine neue Spitzenleistung bei ASR erzielen. Wir verwenden Text-in-Sprache (TTS)-Systeme, um Audio zu synthetisieren, das in ein ASR-System eingespeist wird, um rauschige Hypothesen zu erzeugen, die dann mit den Originaltexten gepaart werden, um das DLM zu trainieren. DLM hat mehrere Schlüsselkomponenten: (i) hochskaliertes Modell und Daten; (ii) Verwendung von Multi-Sprecher-TTS-Systemen; (iii) Kombination mehrerer Rauschverstärkungsstrategien; und (iv) neue Decodierungstechniken. Mit einem Transformer-CTC ASR erreicht DLM eine Wortfehlerrate (WER) von 1,5% bei test-clean und 3,3% WER bei test-other auf Librispeech, die unseres Wissens nach die besten gemeldeten Zahlen im Szenario sind, in dem keine externen Audio-Daten verwendet werden und sogar mit selbstüberwachten Methoden übereinstimmen, die externe Audio-Daten verwenden. Darüber hinaus ist ein einzelnes DLM auf verschiedene ASRs anwendbar und übertrifft deutlich die Leistung von konventionellen LM-basierten Beam-Search-Rescoring. Diese Ergebnisse deuten darauf hin, dass sorgfältig untersuchte Fehlerkorrekturmodelle das Potenzial haben, herkömmliche LMs zu ersetzen und den Schlüssel zu einem neuen Genauigkeitsniveau in ASR-Systemen darstellen.
English
Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a scaled error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several key ingredients: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on test-other on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.
PDF170December 15, 2024