DeCRED : Régularisation centrée sur le décodeur pour la reconnaissance vocale basée sur une architecture encodeur-décodeur
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
papers.authors: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
papers.abstract
Cet article présente une régularisation simple mais efficace pour le modèle de langage interne induit par le décodeur dans les modèles de reconnaissance automatique de la parole (ASR) de type encodeur-décodeur, améliorant ainsi la robustesse et la généralisation dans des contextes intra- et extra-domaines. La méthode proposée, appelée Decoder-Centric Regularization in Encoder-Decoder (DeCRED), ajoute des classificateurs auxiliaires au décodeur, permettant la prédiction du token suivant via des logits intermédiaires. Empiriquement, DeCRED réduit la perplexité moyenne du modèle de langage interne en BPE de 36,6 % par rapport à 11 ensembles de test. De plus, cela se traduit par des améliorations réelles du taux d'erreur de mots (WER) par rapport à la référence dans 5 des 7 ensembles de test intra-domaines et 3 des 4 ensembles de test extra-domaines, réduisant le WER macro de 6,4 % à 6,3 % et de 18,2 % à 16,2 %, respectivement. Sur TEDLIUM3, DeCRED atteint un WER de 7,0 %, surpassant la référence et la régularisation InterCTC centrée sur l'encodeur de 0,6 % et 0,5 %, respectivement. Enfin, nous comparons DeCRED avec OWSM v3.1 et Whisper-medium, montrant des WER compétitifs malgré un entraînement sur beaucoup moins de données et avec moins de paramètres.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.