DeCRED: Декодер-центричная регуляризация для систем распознавания речи на основе архитектуры "кодировщик-декодировщик"
DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition
August 12, 2025
Авторы: Alexander Polok, Santosh Kesiraju, Karel Beneš, Bolaji Yusuf, Lukáš Burget, Jan Černocký
cs.AI
Аннотация
В данной статье представлен простой, но эффективный метод регуляризации внутренней языковой модели, индуцированной декодером в моделях автоматического распознавания речи (ASR) с архитектурой "кодировщик-декодировщик", что повышает устойчивость и обобщающую способность как в рамках, так и за пределами домена. Предложенный метод, названный Decoder-Centric Regularization in Encoder-Decoder (DeCRED), добавляет вспомогательные классификаторы к декодеру, позволяя прогнозировать следующий токен с помощью промежуточных логитов. Эмпирически DeCRED снижает среднюю перплексию внутренней языковой модели на уровне BPE на 36,6% относительно 11 тестовых наборов. Более того, это приводит к реальному улучшению показателя WER по сравнению с базовым подходом на 5 из 7 внутридоменных и 3 из 4 внедоменных тестовых наборов, снижая макро-WER с 6,4% до 6,3% и с 18,2% до 16,2% соответственно. На наборе данных TEDLIUM3 DeCRED достигает WER 7,0%, превосходя базовый подход и регуляризацию InterCTC, ориентированную на кодировщик, на 0,6% и 0,5% соответственно. Наконец, мы сравниваем DeCRED с моделями OWSM v3.1 и Whisper-medium, демонстрируя конкурентоспособные значения WER, несмотря на обучение на значительно меньшем объеме данных и с меньшим количеством параметров.
English
This paper presents a simple yet effective regularization for the internal
language model induced by the decoder in encoder-decoder ASR models, thereby
improving robustness and generalization in both in- and out-of-domain settings.
The proposed method, Decoder-Centric Regularization in Encoder-Decoder
(DeCRED), adds auxiliary classifiers to the decoder, enabling next token
prediction via intermediate logits. Empirically, DeCRED reduces the mean
internal LM BPE perplexity by 36.6% relative to 11 test sets. Furthermore, this
translates into actual WER improvements over the baseline in 5 of 7 in-domain
and 3 of 4 out-of-domain test sets, reducing macro WER from 6.4% to 6.3% and
18.2% to 16.2%, respectively. On TEDLIUM3, DeCRED achieves 7.0% WER, surpassing
the baseline and encoder-centric InterCTC regularization by 0.6% and 0.5%,
respectively. Finally, we compare DeCRED with OWSM v3.1 and Whisper-medium,
showing competitive WERs despite training on much less data with fewer
parameters.