ChatPaper.aiChatPaper

WhisTLE: Adaptación de dominio profunda y supervisada basada únicamente en texto para transformadores preentrenados de reconocimiento de voz

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

September 12, 2025
Autores: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI

Resumen

Los modelos preentrenados de reconocimiento automático del habla (ASR, por sus siglas en inglés), como Whisper, funcionan bien, pero aún requieren adaptación de dominio para manejar vocabulario y expresiones no vistos. En muchos entornos del mundo real, la recopilación de datos de audio es poco práctica, lo que hace necesaria la adaptación basada únicamente en texto. Proponemos WhisTLE, un método de adaptación profundamente supervisado y basado únicamente en texto para modelos ASR preentrenados de tipo codificador-decodificador. WhisTLE entrena un autoencoder variacional (VAE) para modelar las salidas del codificador a partir de texto y ajusta el decodificador utilizando el codificador de texto a latente aprendido, opcionalmente combinado con adaptación de texto a voz (TTS). Durante la inferencia, se restaura el codificador original, sin incurrir en costos adicionales de tiempo de ejecución. En cuatro conjuntos de datos fuera de dominio y cuatro modelos ASR, WhisTLE con TTS reduce la tasa de error de palabras (WER) en un 12,3 % en comparación con la adaptación basada únicamente en TTS y supera a todas las líneas base no WhisTLE en 27 de 32 escenarios.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
PDF12September 22, 2025