Modelli Linguistici di Diffusione Condizionati dall'Audio per il Riconoscimento Vocale e l'Elaborazione di Deliberazioni
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
September 20, 2025
Autori: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su diffusione (DLLM) hanno recentemente attratto un interesse crescente come alternativa ai decoder autoregressivi. In questo lavoro, presentiamo uno studio empirico sull'utilizzo del modello linguistico di grandi dimensioni basato su diffusione LLaDA per il riconoscimento automatico del parlato (ASR). Iniziamo investigando il suo impiego come modulo esterno di elaborazione basato su deliberazione per le trascrizioni di Whisper-LLaMA. Sfruttando l'attenzione bidirezionale e le capacità di denoising di LLaDA, esploriamo strategie di mascheramento casuale, mascheramento a bassa confidenza e semi-autoregressive, dimostrando che Whisper-LLaDA riduce sostanzialmente il WER rispetto alla baseline. Su LibriSpeech, il miglior sistema a cascata raggiunge un WER del 2,25%/4,94% su test-clean/test-other, rappresentando un miglioramento relativo del 12,3% rispetto alla baseline Whisper-LLaMA sulla suddivisione test-other. Al contrario, una versione LLaDA in testo semplice senza caratteristiche acustiche non riesce a migliorare l'accuratezza, sottolineando l'importanza degli embedding condizionati dall'audio. Valutiamo ulteriormente Whisper-LLaDA come decoder autonomo per ASR con decodifica basata su diffusione e semi-autoregressive. La maggior parte delle configurazioni sperimentali raggiunge un'inferenza più veloce rispetto alla baseline Whisper-LLaMA, sebbene l'accuratezza del riconoscimento sia leggermente inferiore. Questi risultati offrono una visione empirica dei LLM basati su diffusione per ASR e indicano direzioni promettenti per miglioramenti.
English
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.