ChatPaper.aiChatPaper

Audio-konditionierte Diffusions-LLMs für ASR und Deliberationsverarbeitung

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

September 20, 2025
papers.authors: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
cs.AI

papers.abstract

Diffusionsbasierte große Sprachmodelle (DLLMs) haben in letzter Zeit zunehmendes Interesse als Alternative zu autoregressiven Dekodern geweckt. In dieser Arbeit präsentieren wir eine empirische Studie zur Verwendung des diffusionsbasierten großen Sprachmodells LLaDA für die automatische Spracherkennung (ASR). Zunächst untersuchen wir seinen Einsatz als externes, deliberatives Verarbeitungsmodul für Whisper-LLaMA-Transkripte. Durch die Nutzung der bidirektionalen Aufmerksamkeit und der Rauschunterdrückungsfähigkeiten von LLaDA explorieren wir Strategien wie zufällige Maskierung, Maskierung bei geringer Konfidenz und semi-autoregressive Ansätze. Dabei zeigen wir, dass Whisper-LLaDA die Wortfehlerrate (WER) im Vergleich zur Baseline deutlich reduziert. Auf LibriSpeech erreicht das beste Kaskadensystem eine WER von 2,25 %/4,94 % auf test-clean/test-other, was einer relativen Verbesserung von 12,3 % gegenüber der Whisper-LLaMA-Baseline auf der test-other-Teilmenge entspricht. Im Gegensatz dazu kann ein rein textbasiertes LLaDA ohne akustische Merkmale die Genauigkeit nicht verbessern, was die Bedeutung von audio-konditionierten Einbettungen unterstreicht. Wir evaluieren Whisper-LLaDA weiterhin als eigenständigen Dekoder für ASR mit diffusionsbasierter und semi-autoregressiver Dekodierung. Die meisten experimentellen Konfigurationen erreichen eine schnellere Inferenz als die Whisper-LLaMA-Baseline, obwohl die Erkennungsgenauigkeit leicht niedriger ist. Diese Ergebnisse bieten eine empirische Sicht auf diffusionsbasierte LLMs für ASR und weisen auf vielversprechende Richtungen für zukünftige Verbesserungen hin.
English
Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.
PDF11September 23, 2025