Distil-Whisper: Distilação de Conhecimento Robusta por meio de Rotulagem Pseudo em Grande Escala
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
November 1, 2023
Autores: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI
Resumo
À medida que o tamanho dos modelos pré-treinados de reconhecimento de fala aumenta, a execução desses modelos grandes em ambientes de baixa latência ou com recursos limitados torna-se um desafio. Neste trabalho, utilizamos pseudo-rotulação para montar um conjunto de dados em grande escala de código aberto, que usamos para destilar o modelo Whisper em uma variante menor, chamada Distil-Whisper. Usando uma heurística simples de taxa de erro de palavras (WER, na sigla em inglês), selecionamos apenas as pseudo-rotulações de mais alta qualidade para o treinamento. O modelo destilado é 5,8 vezes mais rápido, com 51% menos parâmetros, enquanto mantém um desempenho dentro de 1% de WER em dados de teste fora da distribuição em um cenário de transferência zero-shot. O Distil-Whisper mantém a robustez do modelo Whisper em condições acústicas difíceis, ao mesmo tempo em que é menos propenso a erros de alucinação em áudios de longa duração. O Distil-Whisper foi projetado para ser emparelhado com o Whisper para decodificação especulativa, proporcionando um aumento de velocidade de 2 vezes, enquanto garante matematicamente as mesmas saídas que o modelo original. Para facilitar pesquisas adicionais nesse domínio, disponibilizamos publicamente nosso código de treinamento, código de inferência e modelos.
English
As the size of pre-trained speech recognition models increases, running these
large models in low-latency or resource-constrained environments becomes
challenging. In this work, we leverage pseudo-labelling to assemble a
large-scale open-source dataset which we use to distill the Whisper model into
a smaller variant, called Distil-Whisper. Using a simple word error rate (WER)
heuristic, we select only the highest quality pseudo-labels for training. The
distilled model is 5.8 times faster with 51% fewer parameters, while performing
to within 1% WER on out-of-distribution test data in a zero-shot transfer
setting. Distil-Whisper maintains the robustness of the Whisper model to
difficult acoustic conditions, while being less prone to hallucination errors
on long-form audio. Distil-Whisper is designed to be paired with Whisper for
speculative decoding, yielding a 2 times speed-up while mathematically ensuring
the same outputs as the original model. To facilitate further research in this
domain, we make our training code, inference code and models publicly
accessible.