ChatPaper.aiChatPaper

WhisTLE: Глубокая адаптация домена с текстовым супервизированием для предобученных трансформеров распознавания речи

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

September 12, 2025
Авторы: Akshat Pandey, Karun Kumar, Raphael Tang
cs.AI

Аннотация

Предобученные модели автоматического распознавания речи (ASR), такие как Whisper, демонстрируют высокую производительность, но всё же требуют адаптации к домену для обработки неизвестной лексики и речевых особенностей. Во многих реальных условиях сбор речевых данных оказывается непрактичным, что делает необходимым адаптацию только на основе текста. Мы предлагаем WhisTLE — метод глубоко контролируемой адаптации только на основе текста для предобученных моделей ASR с архитектурой "кодировщик-декодировщик". WhisTLE обучает вариационный автоэнкодер (VAE) для моделирования выходов кодировщика на основе текста и тонко настраивает декодировщик с использованием обученного текстово-латентного кодировщика, при необходимости комбинируя это с адаптацией на основе синтеза речи (TTS). На этапе вывода исходный кодировщик восстанавливается, что не влечёт дополнительных вычислительных затрат. На четырёх наборах данных из других доменов и четырёх моделях ASR WhisTLE с TTS снижает частоту ошибок по словам (WER) на 12,3% по сравнению с адаптацией только на основе TTS и превосходит все базовые методы, не использующие WhisTLE, в 27 из 32 сценариев.
English
Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
PDF12September 22, 2025