ChatPaper.aiChatPaper

DeCRED: Regularização Centrada no Decodificador para Reconhecimento de Fala Baseado em Codificador-Decodificador

DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition

August 12, 2025
Autores: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI

Resumo

Este artigo apresenta uma regularização simples, porém eficaz, para o modelo de linguagem interno induzido pelo decodificador em modelos de reconhecimento automático de fala (ASR) do tipo codificador-decodificador, melhorando assim a robustez e a generalização tanto em cenários dentro quanto fora do domínio. O método proposto, chamado Regularização Centrada no Decodificador em Codificador-Decodificador (DeCRED), adiciona classificadores auxiliares ao decodificador, permitindo a previsão do próximo token por meio de logits intermediários. Empiricamente, o DeCRED reduz a perplexidade média do modelo de linguagem interno em BPE em 36,6% em relação a 11 conjuntos de teste. Além disso, isso se traduz em melhorias reais na Taxa de Erro de Palavras (WER) em relação à linha de base em 5 de 7 conjuntos de teste dentro do domínio e em 3 de 4 conjuntos de teste fora do domínio, reduzindo a WER macro de 6,4% para 6,3% e de 18,2% para 16,2%, respectivamente. No TEDLIUM3, o DeCRED alcança 7,0% de WER, superando a linha de base e a regularização InterCTC centrada no codificador em 0,6% e 0,5%, respectivamente. Por fim, comparamos o DeCRED com o OWSM v3.1 e o Whisper-medium, mostrando WERs competitivas apesar de ter sido treinado com muito menos dados e com menos parâmetros.
English
This paper presents a simple yet effective regularization for the internal language model induced by the decoder in encoder-decoder ASR models, thereby improving robustness and generalization in both in- and out-of-domain settings. The proposed method, Decoder-Centric Regularization in Encoder-Decoder (DeCRED), adds auxiliary classifiers to the decoder, enabling next token prediction via intermediate logits. Empirically, DeCRED reduces the mean internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this translates into actual WER improvements over the baseline in 5 of 7 in-domain and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and 18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%, respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium, showing competitive WERs despite training on much less data with fewer parameters.
PDF112August 13, 2025