Denoising LM: Spingendo i Limiti dei Modelli di Correzione degli Errori per il Riconoscimento Vocale
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
Autori: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
Abstract
I modelli linguistici (LM) sono stati a lungo utilizzati per migliorare i risultati dei sistemi di riconoscimento vocale automatico (ASR), ma non sono consapevoli degli errori che tali sistemi commettono. I modelli di correzione degli errori sono progettati per correggere gli errori dell'ASR, tuttavia hanno mostrato scarsi miglioramenti rispetto ai tradizionali LM, principalmente a causa della mancanza di dati di addestramento supervisionati. In questo articolo, presentiamo il Denoising LM (DLM), un modello di correzione degli errori su larga scala addestrato con grandi quantità di dati sintetici, che supera significativamente i tentativi precedenti e raggiunge nuove prestazioni all'avanguardia nell'ASR. Utilizziamo sistemi di sintesi vocale (TTS) per generare audio, che viene poi elaborato da un sistema ASR per produrre ipotesi rumorose, che vengono accoppiate con i testi originali per addestrare il DLM. Il DLM include diversi elementi chiave: (i) modello e dati su larga scala; (ii) utilizzo di sistemi TTS multi-speaker; (iii) combinazione di diverse strategie di aumento del rumore; e (iv) nuove tecniche di decodifica. Con un ASR Transformer-CTC, il DLM raggiunge un tasso di errore sulle parole (WER) dell'1,5% su test-clean e del 3,3% su test-other su Librispeech, che, a nostra conoscenza, sono i migliori risultati riportati in uno scenario in cui non vengono utilizzati dati audio esterni e che eguagliano persino i metodi auto-supervisionati che utilizzano dati audio esterni. Inoltre, un singolo DLM è applicabile a diversi ASR e supera di gran lunga le prestazioni del tradizionale rescoring basato su beam-search con LM. Questi risultati indicano che i modelli di correzione degli errori, se adeguatamente studiati, hanno il potenziale per sostituire i tradizionali LM, rappresentando la chiave per un nuovo livello di accuratezza nei sistemi ASR.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.