DeCRED: Regularización Centrada en el Decodificador para Reconocimiento de Voz Basado en Codificador-Decodificador
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
Autores: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
Resumen
Este artículo presenta una regularización simple pero efectiva para el modelo de lenguaje interno inducido por el decodificador en modelos de reconocimiento automático del habla (ASR) de tipo codificador-decodificador, mejorando así la robustez y generalización tanto en entornos dentro como fuera del dominio. El método propuesto, denominado Regularización Centrada en el Decodificador en Codificador-Decodificador (DeCRED), añade clasificadores auxiliares al decodificador, permitiendo la predicción del siguiente token mediante logits intermedios. Empíricamente, DeCRED reduce la perplejidad media del modelo de lenguaje interno en BPE en un 36.6% en relación con 11 conjuntos de prueba. Además, esto se traduce en mejoras reales en la tasa de error de palabras (WER) respecto a la línea base en 5 de 7 conjuntos de prueba dentro del dominio y en 3 de 4 conjuntos fuera del dominio, reduciendo la WER macro de 6.4% a 6.3% y de 18.2% a 16.2%, respectivamente. En TEDLIUM3, DeCRED alcanza un 7.0% de WER, superando a la línea base y a la regularización InterCTC centrada en el codificador en 0.6% y 0.5%, respectivamente. Finalmente, comparamos DeCRED con OWSM v3.1 y Whisper-medium, mostrando tasas de error competitivas a pesar de entrenarse con muchos menos datos y parámetros.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.