Audio-geconditioneerde diffusie-LLM's voor ASR en deliberatieverwerking

Samenvatting

Diffusie-gebaseerde grote taalmodellen (DLLMs) hebben recentelijk toenemende interesse gewekt als alternatief voor autoregressieve decoders. In dit werk presenteren we een empirische studie over het gebruik van het diffusie-gebaseerde grote taalmodel LLaDA voor automatische spraakherkenning (ASR). We onderzoeken eerst het gebruik ervan als een externe deliberatie-gebaseerde verwerkingsmodule voor Whisper-LLaMA-transcripties. Door gebruik te maken van de bidirectionele aandacht en denoiserende capaciteiten van LLaDA, verkennen we strategieën zoals willekeurige maskering, maskering van lage betrouwbaarheid en semi-autoregressieve benaderingen, en tonen we aan dat Whisper-LLaDA de WER aanzienlijk verlaagt in vergelijking met de baseline. Op LibriSpeech behaalt het beste cascadesysteem een WER van 2,25%/4,94% op test-clean/test-other, wat een relatieve verbetering van 12,3% vertegenwoordigt ten opzichte van de Whisper-LLaMA-baseline op de test-other-split. Daarentegen slaagt een plain-text LLaDA zonder akoestische kenmerken er niet in de nauwkeurigheid te verbeteren, wat het belang van audio-geconditioneerde embeddings benadrukt. We evalueren Whisper-LLaDA verder als een standalone decoder voor ASR met diffusie-gebaseerde en semi-autoregressieve decodering. De meeste experimentele configuraties behalen een snellere inferentie dan de Whisper-LLaMA-baseline, hoewel de herkenningsnauwkeurigheid iets lager is. Deze bevindingen bieden een empirisch perspectief op diffusie-gebaseerde LLMs voor ASR en wijzen op veelbelovende richtingen voor verbeteringen.

English

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.

Audio-geconditioneerde diffusie-LLM's voor ASR en deliberatieverwerking

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Samenvatting

Support