ChatPaper.aiChatPaper

WhisTLE : Adaptation de domaine supervisée en profondeur et basée uniquement sur le texte pour les transformeurs de reconnaissance vocale pré-entraînés

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

September 12, 2025
papers.authors: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI

papers.abstract

Les modèles de reconnaissance automatique de la parole (ASR) pré-entraînés, tels que Whisper, offrent de bonnes performances mais nécessitent encore une adaptation de domaine pour gérer un vocabulaire et des expressions inconnus. Dans de nombreux contextes réels, la collecte de données vocales s’avère impraticable, rendant nécessaire une adaptation basée uniquement sur le texte. Nous proposons WhisTLE, une méthode d’adaptation profondément supervisée et exclusivement textuelle pour les modèles ASR pré-entraînés de type encodeur-décodeur. WhisTLE entraîne un autoencodeur variationnel (VAE) pour modéliser les sorties de l’encodeur à partir du texte et affine le décodeur en utilisant l’encodeur texte-vers-latent appris, éventuellement combiné avec une adaptation par synthèse vocale (TTS). Lors de l’inférence, l’encodeur original est restauré, n’entraînant aucun coût supplémentaire en temps d’exécution. Sur quatre ensembles de données hors domaine et quatre modèles ASR, WhisTLE avec TTS réduit le taux d’erreur sur les mots (WER) de 12,3 % par rapport à une adaptation TTS seule et surpasse toutes les méthodes de référence non-WhisTLE dans 27 des 32 scénarios.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
PDF12September 22, 2025