DeCRED: Decoder-zentrierte Regularisierung für Encoder-Decoder-basierte Spracherkennung
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
papers.authors: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
papers.abstract
Dieses Papier stellt eine einfache, aber effektive Regularisierung für das interne Sprachmodell vor, das durch den Decoder in Encoder-Decoder-ASR-Modellen induziert wird, wodurch die Robustheit und Generalisierung sowohl in in-domain als auch out-of-domain-Szenarien verbessert wird. Die vorgeschlagene Methode, Decoder-Centric Regularization in Encoder-Decoder (DeCRED), fügt dem Decoder zusätzliche Klassifikatoren hinzu, die die Vorhersage des nächsten Tokens über Zwischenlogits ermöglichen. Empirisch reduziert DeCRED die mittlere interne LM-BPE-Perplexität um 36,6 % relativ zu 11 Testdatensätzen. Darüber hinaus führt dies zu tatsächlichen Verbesserungen der Wortfehlerrate (WER) gegenüber der Baseline in 5 von 7 in-domain und 3 von 4 out-of-domain-Testdatensätzen, wobei die makro WER von 6,4 % auf 6,3 % bzw. von 18,2 % auf 16,2 % reduziert wird. Auf TEDLIUM3 erreicht DeCRED eine WER von 7,0 % und übertrifft damit die Baseline und die encoder-zentrierte InterCTC-Regularisierung um 0,6 % bzw. 0,5 %. Schließlich vergleichen wir DeCRED mit OWSM v3.1 und Whisper-medium und zeigen wettbewerbsfähige WERs trotz des Trainings mit deutlich weniger Daten und weniger Parametern.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.