ChatPaper.aiChatPaper

Modelos de Lenguaje de Difusión Condicionados por Audio para Reconocimiento Automático del Habla y Procesamiento de Deliberación

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

September 20, 2025
Autores: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI

Resumen

Los modelos de lenguaje basados en difusión (DLLMs, por sus siglas en inglés) han atraído recientemente un creciente interés como alternativa a los decodificadores autoregresivos. En este trabajo, presentamos un estudio empírico sobre el uso del modelo de lenguaje basado en difusión LLaDA para el reconocimiento automático del habla (ASR). Primero investigamos su uso como un módulo externo de procesamiento basado en deliberación para transcripciones de Whisper-LLaMA. Al aprovechar la atención bidireccional y las capacidades de eliminación de ruido de LLaDA, exploramos estrategias de enmascaramiento aleatorio, enmascaramiento de baja confianza y semi-autoregresivas, demostrando que Whisper-LLaDA reduce sustancialmente la tasa de error de palabras (WER) en comparación con la línea base. En LibriSpeech, el mejor sistema en cascada logra un WER de 2.25%/4.94% en test-clean/test-other, lo que representa una mejora relativa del 12.3% sobre la línea base de Whisper-LLaMA en la división test-other. En contraste, una versión de LLaDA en texto plano sin características acústicas no logra mejorar la precisión, destacando la importancia de los embeddings condicionados por audio. Además, evaluamos Whisper-LLaDA como un decodificador independiente para ASR con decodificación basada en difusión y semi-autoregresiva. La mayoría de las configuraciones experimentales logran una inferencia más rápida que la línea base de Whisper-LLaMA, aunque la precisión del reconocimiento es ligeramente menor. Estos hallazgos ofrecen una visión empírica de los modelos de lenguaje basados en difusión para ASR y apuntan a direcciones prometedoras para mejoras.
English
Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.
PDF11September 23, 2025