ChatPaper.aiChatPaper

Denoising LM: Spingendo i Limiti dei Modelli di Correzione degli Errori per il Riconoscimento Vocale

Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

May 24, 2024
Autori: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI

Abstract

I modelli linguistici (LM) sono stati a lungo utilizzati per migliorare i risultati dei sistemi di riconoscimento vocale automatico (ASR), ma non sono consapevoli degli errori che tali sistemi commettono. I modelli di correzione degli errori sono progettati per correggere gli errori dell'ASR, tuttavia hanno mostrato scarsi miglioramenti rispetto ai tradizionali LM, principalmente a causa della mancanza di dati di addestramento supervisionati. In questo articolo, presentiamo il Denoising LM (DLM), un modello di correzione degli errori su larga scala addestrato con grandi quantità di dati sintetici, che supera significativamente i tentativi precedenti e raggiunge nuove prestazioni all'avanguardia nell'ASR. Utilizziamo sistemi di sintesi vocale (TTS) per generare audio, che viene poi elaborato da un sistema ASR per produrre ipotesi rumorose, che vengono accoppiate con i testi originali per addestrare il DLM. Il DLM include diversi elementi chiave: (i) modello e dati su larga scala; (ii) utilizzo di sistemi TTS multi-speaker; (iii) combinazione di diverse strategie di aumento del rumore; e (iv) nuove tecniche di decodifica. Con un ASR Transformer-CTC, il DLM raggiunge un tasso di errore sulle parole (WER) dell'1,5% su test-clean e del 3,3% su test-other su Librispeech, che, a nostra conoscenza, sono i migliori risultati riportati in uno scenario in cui non vengono utilizzati dati audio esterni e che eguagliano persino i metodi auto-supervisionati che utilizzano dati audio esterni. Inoltre, un singolo DLM è applicabile a diversi ASR e supera di gran lunga le prestazioni del tradizionale rescoring basato su beam-search con LM. Questi risultati indicano che i modelli di correzione degli errori, se adeguatamente studiati, hanno il potenziale per sostituire i tradizionali LM, rappresentando la chiave per un nuovo livello di accuratezza nei sistemi ASR.
English
Language models (LMs) have long been used to improve results of automatic speech recognition (ASR) systems, but they are unaware of the errors that ASR systems make. Error correction models are designed to fix ASR errors, however, they showed little improvement over traditional LMs mainly due to the lack of supervised training data. In this paper, we present Denoising LM (DLM), which is a scaled error correction model trained with vast amounts of synthetic data, significantly exceeding prior attempts meanwhile achieving new state-of-the-art ASR performance. We use text-to-speech (TTS) systems to synthesize audio, which is fed into an ASR system to produce noisy hypotheses, which are then paired with the original texts to train the DLM. DLM has several key ingredients: (i) up-scaled model and data; (ii) usage of multi-speaker TTS systems; (iii) combination of multiple noise augmentation strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on test-other on Librispeech, which to our knowledge are the best reported numbers in the setting where no external audio data are used and even match self-supervised methods which use external audio data. Furthermore, a single DLM is applicable to different ASRs, and greatly surpassing the performance of conventional LM based beam-search rescoring. These results indicate that properly investigated error correction models have the potential to replace conventional LMs, holding the key to a new level of accuracy in ASR systems.
PDF160December 15, 2024