Modèles de langage massifs à diffusion conditionnée par l'audio pour la reconnaissance automatique de la parole et le traitement de délibération
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
September 20, 2025
papers.authors: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI
papers.abstract
Les modèles de langage de grande taille basés sur la diffusion (DLLMs) ont récemment suscité un intérêt croissant en tant qu'alternative aux décodeurs autorégressifs. Dans ce travail, nous présentons une étude empirique sur l'utilisation du modèle de langage de grande taille basé sur la diffusion LLaDA pour la reconnaissance automatique de la parole (ASR). Nous examinons d'abord son utilisation en tant que module de traitement externe basé sur la délibération pour les transcriptions Whisper-LLaMA. En exploitant l'attention bidirectionnelle et les capacités de débruitage de LLaDA, nous explorons des stratégies de masquage aléatoire, de masquage à faible confiance et semi-autorégressives, montrant que Whisper-LLaDA réduit considérablement le taux d'erreur de mots (WER) par rapport à la ligne de base. Sur LibriSpeech, le meilleur système en cascade atteint un WER de 2,25 %/4,94 % sur test-clean/test-other, représentant une amélioration relative de 12,3 % par rapport à la ligne de base Whisper-LLaMA sur la partition test-other. En revanche, une version LLaDA en texte brut sans caractéristiques acoustiques ne parvient pas à améliorer la précision, soulignant l'importance des embeddings conditionnés par l'audio. Nous évaluons également Whisper-LLaDA en tant que décodeur autonome pour l'ASR avec un décodage basé sur la diffusion et semi-autorégressif. La plupart des configurations expérimentales permettent une inférence plus rapide que la ligne de base Whisper-LLaMA, bien que la précision de reconnaissance soit légèrement inférieure. Ces résultats offrent une perspective empirique sur l'utilisation des DLLMs pour l'ASR et indiquent des directions prometteuses pour des améliorations futures.
English
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.