Диффузионные языковые модели с аудио-условиями для автоматического распознавания речи и обработки обдумывания
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
September 20, 2025
Авторы: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI
Аннотация
Диффузионные большие языковые модели (DLLM) в последнее время привлекают растущий интерес как альтернатива авторегрессивным декодерам. В данной работе мы представляем эмпирическое исследование использования диффузионной большой языковой модели LLaDA для автоматического распознавания речи (ASR). Сначала мы исследуем её применение в качестве внешнего модуля обработки на основе обдумывания для транскриптов Whisper-LLaMA. Используя двунаправленное внимание и способность к удалению шума LLaDA, мы изучаем стратегии случайного маскирования, маскирования с низкой уверенностью и полуавторегрессивного декодирования, демонстрируя, что Whisper-LLaDA существенно снижает WER по сравнению с базовым уровнем. На наборе данных LibriSpeech лучшая каскадная система достигает WER 2,25%/4,94% на тестовых данных test-clean/test-other, что представляет собой относительное улучшение на 12,3% по сравнению с базовым уровнем Whisper-LLaMA на разделе test-other. В то же время, простая текстовая LLaDA без акустических признаков не улучшает точность, что подчеркивает важность аудио-обусловленных эмбеддингов. Мы также оцениваем Whisper-LLaDA в качестве автономного декодера для ASR с использованием диффузионного и полуавторегрессивного декодирования. Большинство экспериментальных конфигураций обеспечивают более быстрый вывод, чем базовый уровень Whisper-LLaMA, хотя точность распознавания немного ниже. Эти результаты предлагают эмпирический взгляд на использование диффузионных больших языковых моделей для ASR и указывают на перспективные направления для улучшений.
English
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.