DeCRED: Decoder-Gerichte Regularisatie voor Encoder-Decoder Gebaseerde Spraakherkenning
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
Auteurs: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
Samenvatting
Dit artikel presenteert een eenvoudige maar effectieve regularisatie voor het interne taalmodel dat wordt geïnduceerd door de decoder in encoder-decoder ASR-modellen, waardoor de robuustheid en generalisatie in zowel in- als out-of-domain situaties wordt verbeterd. De voorgestelde methode, Decoder-Centric Regularization in Encoder-Decoder (DeCRED), voegt aanvullende classificatoren toe aan de decoder, waardoor voorspelling van het volgende token mogelijk wordt gemaakt via tussenliggende logits. Empirisch gezien reduceert DeCRED de gemiddelde interne LM BPE-perplexiteit met 36,6% ten opzichte van 11 testverzamelingen. Bovendien vertaalt dit zich in daadwerkelijke WER-verbeteringen ten opzichte van de baseline in 5 van de 7 in-domain en 3 van de 4 out-of-domain testverzamelingen, waarbij de macro WER wordt gereduceerd van 6,4% naar 6,3% en van 18,2% naar 16,2%, respectievelijk. Op TEDLIUM3 behaalt DeCRED een WER van 7,0%, wat de baseline en de encoder-centrische InterCTC-regularisatie met respectievelijk 0,6% en 0,5% overtreft. Tot slot vergelijken we DeCRED met OWSM v3.1 en Whisper-medium, waarbij competitieve WERs worden getoond ondanks training met veel minder data en minder parameters.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.