Denoising LM: De Grenzen Verleggen van Foutcorrectiemodellen voor Spraakherkenning
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition
May 24, 2024
Auteurs: Zijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly
cs.AI
Samenvatting
Taalmmodellen (LMs) worden al lang gebruikt om de resultaten van automatische spraakherkenning (ASR) systemen te verbeteren, maar ze zijn zich niet bewust van de fouten die ASR-systemen maken. Foutcorrectiemodellen zijn ontworpen om ASR-fouten te corrigeren, maar ze lieten weinig verbetering zien ten opzichte van traditionele LMs, voornamelijk door het gebrek aan begeleide trainingsdata. In dit artikel presenteren we Denoising LM (DLM), een opgeschaald foutcorrectiemodel getraind met enorme hoeveelheden synthetische data, dat eerdere pogingen aanzienlijk overtreft en tegelijkertijd nieuwe state-of-the-art ASR-prestaties bereikt. We gebruiken text-to-speech (TTS) systemen om audio te synthetiseren, die vervolgens in een ASR-systeem wordt gevoerd om ruwe hypotheses te produceren, die dan worden gekoppeld aan de originele teksten om de DLM te trainen. DLM heeft verschillende belangrijke ingrediënten: (i) opgeschaald model en data; (ii) gebruik van multi-speaker TTS-systemen; (iii) combinatie van meerdere ruis-augmentatiestrategieën; en (iv) nieuwe decodeertechnieken. Met een Transformer-CTC ASR bereikt DLM een woordfoutpercentage (WER) van 1,5% op test-clean en 3,3% WER op test-other op Librispeech, wat voor zover wij weten de beste gerapporteerde resultaten zijn in de setting waar geen externe audiodata worden gebruikt en zelfs overeenkomen met zelf-begeleide methoden die externe audiodata gebruiken. Bovendien is een enkele DLM toepasbaar op verschillende ASRs en overtreft het de prestaties van conventionele LM-gebaseerde beam-search herscoren aanzienlijk. Deze resultaten geven aan dat goed onderzochte foutcorrectiemodellen het potentieel hebben om conventionele LMs te vervangen, wat de sleutel vormt naar een nieuw niveau van nauwkeurigheid in ASR-systemen.
English
Language models (LMs) have long been used to improve results of automatic
speech recognition (ASR) systems, but they are unaware of the errors that ASR
systems make. Error correction models are designed to fix ASR errors, however,
they showed little improvement over traditional LMs mainly due to the lack of
supervised training data. In this paper, we present Denoising LM (DLM), which
is a scaled error correction model trained with vast amounts of
synthetic data, significantly exceeding prior attempts meanwhile achieving new
state-of-the-art ASR performance. We use text-to-speech (TTS) systems to
synthesize audio, which is fed into an ASR system to produce noisy hypotheses,
which are then paired with the original texts to train the DLM. DLM has several
key ingredients: (i) up-scaled model and data; (ii) usage of
multi-speaker TTS systems; (iii) combination of multiple noise augmentation
strategies; and (iv) new decoding techniques. With a Transformer-CTC ASR, DLM
achieves 1.5% word error rate (WER) on test-clean and 3.3% WER on
test-other on Librispeech, which to our knowledge are the best
reported numbers in the setting where no external audio data are used and even
match self-supervised methods which use external audio data. Furthermore, a
single DLM is applicable to different ASRs, and greatly surpassing the
performance of conventional LM based beam-search rescoring. These results
indicate that properly investigated error correction models have the potential
to replace conventional LMs, holding the key to a new level of accuracy in ASR
systems.