ChatPaper.aiChatPaper

Distil-Whisper: Distilación Robusta de Conocimiento mediante Etiquetado Pseudo a Gran Escala

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
Autores: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

Resumen

A medida que aumenta el tamaño de los modelos preentrenados de reconocimiento de voz, ejecutar estos modelos grandes en entornos de baja latencia o con recursos limitados se vuelve un desafío. En este trabajo, aprovechamos el etiquetado pseudo-supervisado para ensamblar un conjunto de datos de gran escala de código abierto, el cual utilizamos para destilar el modelo Whisper en una variante más pequeña, llamada Distil-Whisper. Utilizando una heurística simple basada en la tasa de error de palabras (WER), seleccionamos solo las pseudo-etiquetas de mayor calidad para el entrenamiento. El modelo destilado es 5.8 veces más rápido y tiene un 51% menos de parámetros, mientras que su rendimiento se mantiene dentro de un 1% de WER en datos de prueba fuera de distribución en un escenario de transferencia zero-shot. Distil-Whisper conserva la robustez del modelo Whisper frente a condiciones acústicas difíciles, al mismo tiempo que es menos propenso a errores de alucinación en audios de larga duración. Distil-Whisper está diseñado para ser utilizado junto con Whisper en un esquema de decodificación especulativa, logrando una aceleración de 2 veces mientras se garantiza matemáticamente que las salidas sean idénticas a las del modelo original. Para facilitar futuras investigaciones en este ámbito, hemos hecho públicos nuestro código de entrenamiento, código de inferencia y modelos.
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF582December 15, 2024