DeCRED: 인코더-디코더 기반 음성 인식을 위한 디코더 중심 정규화
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
저자: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
초록
본 논문은 인코더-디코더 ASR 모델의 디코더에 의해 유도되는 내부 언어 모델을 위한 간단하지만 효과적인 정규화 방법을 제안함으로써, 도메인 내 및 도메인 외 설정에서의 견고성과 일반화 능력을 향상시킨다. 제안된 방법인 DeCRED(Decoder-Centric Regularization in Encoder-Decoder)는 디코더에 보조 분류기를 추가하여 중간 로짓을 통해 다음 토큰 예측을 가능하게 한다. 실험적으로 DeCRED는 11개의 테스트 세트에 대해 내부 LM BPE 퍼플렉서티를 36.6% 상대적으로 감소시켰다. 더 나아가, 이는 7개의 도메인 내 테스트 세트 중 5개와 4개의 도메인 외 테스트 세트 중 3개에서 기준선 대비 실제 WER 개선으로 이어졌으며, 매크로 WER을 각각 6.4%에서 6.3%로, 18.2%에서 16.2%로 감소시켰다. TEDLIUM3에서 DeCRED는 7.0% WER을 달성하여 기준선과 인코더 중심의 InterCTC 정규화를 각각 0.6%와 0.5% 앞질렀다. 마지막으로, DeCRED를 OWSM v3.1 및 Whisper-medium과 비교하여 훨씬 적은 데이터와 더 적은 매개변수로 훈련했음에도 불구하고 경쟁력 있는 WER을 보임을 확인하였다.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.