WhisTLE: Adattamento di Dominio Profondamente Supervisionato e Solo Testo per Trasformatori Pre-addestrati nel Riconoscimento Vocale
WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers
September 12, 2025
Autori: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI
Abstract
I modelli pre-addestrati di riconoscimento vocale automatico (ASR) come Whisper performano bene, ma richiedono comunque un adattamento al dominio per gestire vocaboli e linguaggi non visti. In molti contesti reali, la raccolta di dati vocali risulta impraticabile, rendendo necessario un adattamento basato esclusivamente sul testo. Proponiamo WhisTLE, un metodo di adattamento profondamente supervisionato e basato solo su testo per modelli ASR pre-addestrati di tipo encoder-decoder. WhisTLE addestra un autoencoder variazionale (VAE) per modellare gli output dell'encoder a partire dal testo e affina il decoder utilizzando l'encoder appreso da testo a latente, eventualmente combinato con un adattamento basato sulla sintesi vocale (TTS). Durante l'inferenza, l'encoder originale viene ripristinato, senza alcun costo aggiuntivo in termini di tempo di esecuzione. Su quattro dataset fuori dominio e quattro modelli ASR, WhisTLE con TTS riduce il tasso di errore sulle parole (WER) del 12,3% rispetto all'adattamento basato solo su TTS e supera tutte le baseline non WhisTLE in 27 su 32 scenari.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform
well but still need domain adaptation to handle unseen vocabulary and parlance.
In many real-world settings, collecting speech data is impractical,
necessitating text-only adaptation. We propose WhisTLE, a deeply supervised,
text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE
trains a variational autoencoder (VAE) to model encoder outputs from text and
fine-tunes the decoder using the learned text-to-latent encoder, optionally
combined with text-to-speech (TTS) adaptation. At inference, the original
encoder is restored, incurring no extra runtime cost. Across four out-of-domain
datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by
12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines
in 27 of 32 scenarios.