ChatPaper.aiChatPaper

WhisTLE: Adaptação de Domínio Profundamente Supervisionada e Baseada Apenas em Texto para Transformers Pré-treinados em Reconhecimento de Fala

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

September 12, 2025
Autores: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI

Resumo

Modelos pré-treinados de reconhecimento automático de fala (ASR), como o Whisper, apresentam bom desempenho, mas ainda precisam de adaptação de domínio para lidar com vocabulário e expressões não vistos. Em muitos cenários do mundo real, a coleta de dados de fala é impraticável, exigindo adaptação apenas com texto. Propomos o WhisTLE, um método de adaptação profundamente supervisionado e baseado apenas em texto para modelos ASR pré-treinados de codificador-decodificador. O WhisTLE treina um autoencoder variacional (VAE) para modelar as saídas do codificador a partir de texto e ajusta o decodificador usando o codificador latente aprendido de texto para latente, opcionalmente combinado com adaptação de texto para fala (TTS). Na inferência, o codificador original é restaurado, sem custo adicional de tempo de execução. Em quatro conjuntos de dados fora do domínio e quatro modelos ASR, o WhisTLE com TTS reduz a taxa de erro de palavras (WER) em 12,3% em relação à adaptação apenas com TTS e supera todas as linhas de base não-WhisTLE em 27 de 32 cenários.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
PDF12September 22, 2025