Modelos de Linguagem de Difusão Condicionados por Áudio para Reconhecimento Automático de Fala e Processamento de Deliberação
Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
September 20, 2025
Autores: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI
Resumo
Modelos de linguagem de grande escala baseados em difusão (DLLMs) têm recentemente atraído crescente interesse como uma alternativa aos decodificadores autoregressivos. Neste trabalho, apresentamos um estudo empírico sobre o uso do modelo de linguagem de grande escala baseado em difusão LLaDA para reconhecimento automático de fala (ASR). Primeiro, investigamos seu uso como um módulo de processamento externo baseado em deliberação para transcrições do Whisper-LLaMA. Ao aproveitar a atenção bidirecional e as capacidades de remoção de ruído do LLaDA, exploramos estratégias de mascaramento aleatório, mascaramento de baixa confiança e semi-autoregressivas, mostrando que o Whisper-LLaDA reduz substancialmente a taxa de erro de palavras (WER) em comparação com a linha de base. No LibriSpeech, o melhor sistema em cascata alcança 2,25%/4,94% de WER em test-clean/test-other, representando uma melhoria relativa de 12,3% sobre a linha de base do Whisper-LLaMA na divisão test-other. Em contraste, um LLaDA de texto simples sem características acústicas não consegue melhorar a precisão, destacando a importância de embeddings condicionados por áudio. Avaliamos ainda o Whisper-LLaDA como um decodificador autônomo para ASR com decodificação baseada em difusão e semi-autoregressiva. A maioria das configurações experimentais alcança inferência mais rápida do que a linha de base do Whisper-LLaMA, embora a precisão de reconhecimento seja ligeiramente menor. Esses achados oferecem uma visão empírica dos modelos de linguagem de grande escala baseados em difusão para ASR e apontam para direções promissoras de melhorias.
English
Diffusion-based large language models (DLLMs) have recently attracted growing
interest as an alternative to autoregressive decoders. In this work, we present
an empirical study on using the diffusion-based large language model LLaDA for
automatic speech recognition (ASR). We first investigate its use as an external
deliberation-based processing module for Whisper-LLaMA transcripts. By
leveraging the bidirectional attention and denoising capabilities of LLaDA, we
explore random masking, low-confidence masking, and semi-autoregressive
strategies, showing that Whisper-LLaDA substantially reduces WER compared with
the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER
on test-clean/test-other, representing a 12.3% relative improvement over the
Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA
without acoustic features fails to improve accuracy, highlighting the
importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA
as a standalone decoder for ASR with diffusion-based and semi-autoregressive
decoding. Most experimental configurations achieve faster inference than the
Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These
findings offer an empirical view of diffusion-based LLMs for ASR and point to
promising directions for improvements.