Distil-Whisper: Distilación Robusta de Conocimiento mediante Etiquetado Pseudo a Gran Escala
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
November 1, 2023
Autores: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI
Resumen
A medida que aumenta el tamaño de los modelos preentrenados de reconocimiento de voz, ejecutar estos modelos grandes en entornos de baja latencia o con recursos limitados se vuelve un desafío. En este trabajo, aprovechamos el etiquetado pseudo-supervisado para ensamblar un conjunto de datos de gran escala de código abierto, el cual utilizamos para destilar el modelo Whisper en una variante más pequeña, llamada Distil-Whisper. Utilizando una heurística simple basada en la tasa de error de palabras (WER), seleccionamos solo las pseudo-etiquetas de mayor calidad para el entrenamiento. El modelo destilado es 5.8 veces más rápido y tiene un 51% menos de parámetros, mientras que su rendimiento se mantiene dentro de un 1% de WER en datos de prueba fuera de distribución en un escenario de transferencia zero-shot. Distil-Whisper conserva la robustez del modelo Whisper frente a condiciones acústicas difíciles, al mismo tiempo que es menos propenso a errores de alucinación en audios de larga duración. Distil-Whisper está diseñado para ser utilizado junto con Whisper en un esquema de decodificación especulativa, logrando una aceleración de 2 veces mientras se garantiza matemáticamente que las salidas sean idénticas a las del modelo original. Para facilitar futuras investigaciones en este ámbito, hemos hecho públicos nuestro código de entrenamiento, código de inferencia y modelos.
English
As the size of pre-trained speech recognition models increases, running these
large models in low-latency or resource-constrained environments becomes
challenging. In this work, we leverage pseudo-labelling to assemble a
large-scale open-source dataset which we use to distill the Whisper model into
a smaller variant, called Distil-Whisper. Using a simple word error rate (WER)
heuristic, we select only the highest quality pseudo-labels for training. The
distilled model is 5.8 times faster with 51% fewer parameters, while performing
to within 1% WER on out-of-distribution test data in a zero-shot transfer
setting. Distil-Whisper maintains the robustness of the Whisper model to
difficult acoustic conditions, while being less prone to hallucination errors
on long-form audio. Distil-Whisper is designed to be paired with Whisper for
speculative decoding, yielding a 2 times speed-up while mathematically ensuring
the same outputs as the original model. To facilitate further research in this
domain, we make our training code, inference code and models publicly
accessible.