Audio-geconditioneerde diffusie-LLM's voor ASR en deliberatieverwerking
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
September 20, 2025
Auteurs: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI
Samenvatting
Diffusie-gebaseerde grote taalmodellen (DLLMs) hebben recentelijk toenemende interesse gewekt als alternatief voor autoregressieve decoders. In dit werk presenteren we een empirische studie over het gebruik van het diffusie-gebaseerde grote taalmodel LLaDA voor automatische spraakherkenning (ASR). We onderzoeken eerst het gebruik ervan als een externe deliberatie-gebaseerde verwerkingsmodule voor Whisper-LLaMA-transcripties. Door gebruik te maken van de bidirectionele aandacht en denoiserende capaciteiten van LLaDA, verkennen we strategieën zoals willekeurige maskering, maskering van lage betrouwbaarheid en semi-autoregressieve benaderingen, en tonen we aan dat Whisper-LLaDA de WER aanzienlijk verlaagt in vergelijking met de baseline. Op LibriSpeech behaalt het beste cascadesysteem een WER van 2,25%/4,94% op test-clean/test-other, wat een relatieve verbetering van 12,3% vertegenwoordigt ten opzichte van de Whisper-LLaMA-baseline op de test-other-split. Daarentegen slaagt een plain-text LLaDA zonder akoestische kenmerken er niet in de nauwkeurigheid te verbeteren, wat het belang van audio-geconditioneerde embeddings benadrukt. We evalueren Whisper-LLaDA verder als een standalone decoder voor ASR met diffusie-gebaseerde en semi-autoregressieve decodering. De meeste experimentele configuraties behalen een snellere inferentie dan de Whisper-LLaMA-baseline, hoewel de herkenningsnauwkeurigheid iets lager is. Deze bevindingen bieden een empirisch perspectief op diffusie-gebaseerde LLMs voor ASR en wijzen op veelbelovende richtingen voor verbeteringen.
English
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.