ASR 및 숙고 처리를 위한 오디오 조건부 확산 LLM
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
September 20, 2025
저자: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI
초록
디퓨전 기반 대형 언어 모델(DLLMs)은 최근 자동회귀 디코더의 대안으로서 점점 더 많은 관심을 받고 있다. 본 연구에서는 디퓨전 기반 대형 언어 모델인 LLaDA를 자동 음성 인식(ASR)에 활용한 실험적 연구를 제시한다. 먼저, Whisper-LLaMA 전사본에 대한 외부 숙고 기반 처리 모듈로서의 사용 가능성을 탐구한다. LLaDA의 양방향 주의 메커니즘과 잡음 제거 능력을 활용하여, 무작위 마스킹, 낮은 신뢰도 마스킹, 그리고 준-자동회귀 전략을 탐색한 결과, Whisper-LLaDA가 기준선 대비 WER을 상당히 감소시킴을 보여준다. LibriSpeech 데이터셋에서, 최적의 캐스케이드 시스템은 test-clean/test-other에서 각각 2.25%/4.94%의 WER을 달성하며, 이는 test-other 분할에서 Whisper-LLaMA 기준선 대비 12.3%의 상대적 개선을 나타낸다. 반면, 음향 특성이 없는 일반 텍스트 LLaDA는 정확도를 개선하지 못하며, 이는 오디오 조건 임베딩의 중요성을 강조한다. 또한, Whisper-LLaDA를 디퓨전 기반 및 준-자동회귀 디코딩을 사용한 ASR의 독립형 디코더로 평가한다. 대부분의 실험 구성에서 기준선보다 빠른 추론 속도를 달성했지만, 인식 정확도는 약간 낮았다. 이러한 결과는 ASR을 위한 디퓨전 기반 LLM의 실험적 관점을 제공하며, 개선을 위한 유망한 방향을 제시한다.
English
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.