Modelos de Linguagem de Difusão Condicionados por Áudio para Reconhecimento Automático de Fala e Processamento de Deliberação

Resumo

Modelos de linguagem de grande escala baseados em difusão (DLLMs) têm recentemente atraído crescente interesse como uma alternativa aos decodificadores autoregressivos. Neste trabalho, apresentamos um estudo empírico sobre o uso do modelo de linguagem de grande escala baseado em difusão LLaDA para reconhecimento automático de fala (ASR). Primeiro, investigamos seu uso como um módulo de processamento externo baseado em deliberação para transcrições do Whisper-LLaMA. Ao aproveitar a atenção bidirecional e as capacidades de remoção de ruído do LLaDA, exploramos estratégias de mascaramento aleatório, mascaramento de baixa confiança e semi-autoregressivas, mostrando que o Whisper-LLaDA reduz substancialmente a taxa de erro de palavras (WER) em comparação com a linha de base. No LibriSpeech, o melhor sistema em cascata alcança 2,25%/4,94% de WER em test-clean/test-other, representando uma melhoria relativa de 12,3% sobre a linha de base do Whisper-LLaMA na divisão test-other. Em contraste, um LLaDA de texto simples sem características acústicas não consegue melhorar a precisão, destacando a importância de embeddings condicionados por áudio. Avaliamos ainda o Whisper-LLaDA como um decodificador autônomo para ASR com decodificação baseada em difusão e semi-autoregressiva. A maioria das configurações experimentais alcança inferência mais rápida do que a linha de base do Whisper-LLaMA, embora a precisão de reconhecimento seja ligeiramente menor. Esses achados oferecem uma visão empírica dos modelos de linguagem de grande escala baseados em difusão para ASR e apontam para direções promissoras de melhorias.

English

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.

Modelos de Linguagem de Difusão Condicionados por Áudio para Reconhecimento Automático de Fala e Processamento de Deliberação

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Resumo

Support