ChatPaper.aiChatPaper

WhisTLE: Diep begeleide, tekst-gebaseerde domeinaanpassing voor voorgetrainde spraakherkenningstransformers

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

September 12, 2025
Auteurs: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI

Samenvatting

Voorgetrainde automatische spraakherkenning (ASR) modellen zoals Whisper presteren goed, maar hebben nog steeds domeinaanpassing nodig om ongeziene woordenschat en spreektaal te kunnen verwerken. In veel praktijksituaties is het verzamelen van spraakdata onpraktisch, waardoor tekstuele aanpassing noodzakelijk is. Wij stellen WhisTLE voor, een diep begeleide, tekstuele aanpassingsmethode voor voorgetrainde encoder-decoder ASR-modellen. WhisTLE traint een variational autoencoder (VAE) om encoder-uitvoer van tekst te modelleren en fine-tunt de decoder met behulp van de geleerde tekst-naar-latente encoder, eventueel gecombineerd met tekst-naar-spraak (TTS) aanpassing. Tijdens inferentie wordt de originele encoder hersteld, wat geen extra runtimekosten met zich meebrengt. Over vier out-of-domain datasets en vier ASR-modellen reduceert WhisTLE met TTS de woordfoutfrequentie (WER) met 12,3% ten opzichte van TTS-alleen aanpassing en presteert het beter dan alle niet-WhisTLE-baselines in 27 van de 32 scenario's.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
PDF12September 22, 2025