DeCRED: Regolarizzazione Centrata sul Decodificatore per il Riconoscimento Vocale Basato su Architetture Encoder-Decoder
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
Autori: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
Abstract
Questo articolo presenta una regolarizzazione semplice ma efficace per il modello linguistico interno indotto dal decodificatore nei modelli ASR encoder-decoder, migliorando così la robustezza e la generalizzazione sia in contesti in-domain che out-of-domain. Il metodo proposto, denominato Decoder-Centric Regularization in Encoder-Decoder (DeCRED), aggiunge classificatori ausiliari al decodificatore, consentendo la previsione del token successivo tramite logit intermedi. Empiricamente, DeCRED riduce la perplexità media del modello linguistico interno BPE del 36,6% rispetto a 11 set di test. Inoltre, ciò si traduce in miglioramenti effettivi del WER rispetto alla baseline in 5 su 7 set di test in-domain e 3 su 4 set di test out-of-domain, riducendo il WER macro rispettivamente dal 6,4% al 6,3% e dal 18,2% al 16,2%. Su TEDLIUM3, DeCRED raggiunge un WER del 7,0%, superando la baseline e la regolarizzazione encoder-centric InterCTC rispettivamente dello 0,6% e dello 0,5%. Infine, confrontiamo DeCRED con OWSM v3.1 e Whisper-medium, mostrando WER competitivi nonostante l'addestramento su molti meno dati e con un numero inferiore di parametri.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.