ChatPaper.aiChatPaper

Distil-Whisper: Distilação de Conhecimento Robusta por meio de Rotulagem Pseudo em Grande Escala

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
Autores: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

Resumo

À medida que o tamanho dos modelos pré-treinados de reconhecimento de fala aumenta, a execução desses modelos grandes em ambientes de baixa latência ou com recursos limitados torna-se um desafio. Neste trabalho, utilizamos pseudo-rotulação para montar um conjunto de dados em grande escala de código aberto, que usamos para destilar o modelo Whisper em uma variante menor, chamada Distil-Whisper. Usando uma heurística simples de taxa de erro de palavras (WER, na sigla em inglês), selecionamos apenas as pseudo-rotulações de mais alta qualidade para o treinamento. O modelo destilado é 5,8 vezes mais rápido, com 51% menos parâmetros, enquanto mantém um desempenho dentro de 1% de WER em dados de teste fora da distribuição em um cenário de transferência zero-shot. O Distil-Whisper mantém a robustez do modelo Whisper em condições acústicas difíceis, ao mesmo tempo em que é menos propenso a erros de alucinação em áudios de longa duração. O Distil-Whisper foi projetado para ser emparelhado com o Whisper para decodificação especulativa, proporcionando um aumento de velocidade de 2 vezes, enquanto garante matematicamente as mesmas saídas que o modelo original. Para facilitar pesquisas adicionais nesse domínio, disponibilizamos publicamente nosso código de treinamento, código de inferência e modelos.
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF562February 8, 2026