ChatPaper.aiChatPaper

WhisTLE: Tief überwachte, textbasierte Domänenanpassung für vortrainierte Transformermodelle zur Spracherkennung

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

September 12, 2025
papers.authors: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI

papers.abstract

Vortrainierte automatische Spracherkennungsmodelle (ASR) wie Whisper zeigen gute Leistungen, benötigen jedoch noch eine Domänenanpassung, um unbekanntes Vokabular und Sprachgebrauch zu bewältigen. In vielen realen Anwendungen ist die Erfassung von Sprachdaten unpraktisch, was eine rein textbasierte Anpassung erforderlich macht. Wir stellen WhisTLE vor, eine tief überwachte, rein textbasierte Anpassungsmethode für vortrainierte Encoder-Decoder-ASR-Modelle. WhisTLE trainiert ein variationsautokodierendes Modell (VAE), um Encoder-Ausgaben aus Text zu modellieren, und feintunt den Decoder unter Verwendung des gelernten Text-zu-Latent-Encoders, optional kombiniert mit einer Text-zu-Sprache (TTS)-Anpassung. Bei der Inferenz wird der ursprüngliche Encoder wiederhergestellt, wodurch keine zusätzlichen Laufzeitkosten entstehen. Über vier domänenfremde Datensätze und vier ASR-Modelle hinweg reduziert WhisTLE mit TTS die Wortfehlerrate (WER) um 12,3 % im Vergleich zur reinen TTS-Anpassung und übertrifft alle Nicht-WhisTLE-Baselines in 27 von 32 Szenarien.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
PDF12September 22, 2025