Modelli Linguistici di Diffusione Condizionati dall'Audio per il Riconoscimento Vocale e l'Elaborazione di Deliberazioni

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (DLLM) hanno recentemente attratto un interesse crescente come alternativa ai decoder autoregressivi. In questo lavoro, presentiamo uno studio empirico sull'utilizzo del modello linguistico di grandi dimensioni basato su diffusione LLaDA per il riconoscimento automatico del parlato (ASR). Iniziamo investigando il suo impiego come modulo esterno di elaborazione basato su deliberazione per le trascrizioni di Whisper-LLaMA. Sfruttando l'attenzione bidirezionale e le capacità di denoising di LLaDA, esploriamo strategie di mascheramento casuale, mascheramento a bassa confidenza e semi-autoregressive, dimostrando che Whisper-LLaDA riduce sostanzialmente il WER rispetto alla baseline. Su LibriSpeech, il miglior sistema a cascata raggiunge un WER del 2,25%/4,94% su test-clean/test-other, rappresentando un miglioramento relativo del 12,3% rispetto alla baseline Whisper-LLaMA sulla suddivisione test-other. Al contrario, una versione LLaDA in testo semplice senza caratteristiche acustiche non riesce a migliorare l'accuratezza, sottolineando l'importanza degli embedding condizionati dall'audio. Valutiamo ulteriormente Whisper-LLaDA come decoder autonomo per ASR con decodifica basata su diffusione e semi-autoregressive. La maggior parte delle configurazioni sperimentali raggiunge un'inferenza più veloce rispetto alla baseline Whisper-LLaMA, sebbene l'accuratezza del riconoscimento sia leggermente inferiore. Questi risultati offrono una visione empirica dei LLM basati su diffusione per ASR e indicano direzioni promettenti per miglioramenti.

English

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.

Modelli Linguistici di Diffusione Condizionati dall'Audio per il Riconoscimento Vocale e l'Elaborazione di Deliberazioni

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Abstract

Support