Диффузионные языковые модели с аудио-условиями для автоматического распознавания речи и обработки обдумывания

Аннотация

Диффузионные большие языковые модели (DLLM) в последнее время привлекают растущий интерес как альтернатива авторегрессивным декодерам. В данной работе мы представляем эмпирическое исследование использования диффузионной большой языковой модели LLaDA для автоматического распознавания речи (ASR). Сначала мы исследуем её применение в качестве внешнего модуля обработки на основе обдумывания для транскриптов Whisper-LLaMA. Используя двунаправленное внимание и способность к удалению шума LLaDA, мы изучаем стратегии случайного маскирования, маскирования с низкой уверенностью и полуавторегрессивного декодирования, демонстрируя, что Whisper-LLaDA существенно снижает WER по сравнению с базовым уровнем. На наборе данных LibriSpeech лучшая каскадная система достигает WER 2,25%/4,94% на тестовых данных test-clean/test-other, что представляет собой относительное улучшение на 12,3% по сравнению с базовым уровнем Whisper-LLaMA на разделе test-other. В то же время, простая текстовая LLaDA без акустических признаков не улучшает точность, что подчеркивает важность аудио-обусловленных эмбеддингов. Мы также оцениваем Whisper-LLaDA в качестве автономного декодера для ASR с использованием диффузионного и полуавторегрессивного декодирования. Большинство экспериментальных конфигураций обеспечивают более быстрый вывод, чем базовый уровень Whisper-LLaMA, хотя точность распознавания немного ниже. Эти результаты предлагают эмпирический взгляд на использование диффузионных больших языковых моделей для ASR и указывают на перспективные направления для улучшений.

English

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confidence masking, and semi-autoregressive strategies, showing that Whisper-LLaDA substantially reduces WER compared with the baseline. On LibriSpeech, the best cascade system achieves 2.25%/4.94% WER on test-clean/test-other, representing a 12.3% relative improvement over the Whisper-LLaMA baseline on the test-other split. In contrast, a plain-text LLaDA without acoustic features fails to improve accuracy, highlighting the importance of audio-conditioned embeddings. We further evaluate Whisper-LLaDA as a standalone decoder for ASR with diffusion-based and semi-autoregressive decoding. Most experimental configurations achieve faster inference than the Whisper-LLaMA baseline, although recognition accuracy is slightly lower. These findings offer an empirical view of diffusion-based LLMs for ASR and point to promising directions for improvements.

Диффузионные языковые модели с аудио-условиями для автоматического распознавания речи и обработки обдумывания

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

Аннотация

Support