Distil-Whisper: Distillazione Robust della Conoscenza tramite Etichettatura Pseudo su Larga Scala
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
November 1, 2023
Autori: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI
Abstract
Con l'aumento delle dimensioni dei modelli pre-addestrati per il riconoscimento vocale, l'esecuzione di questi grandi modelli in ambienti con bassa latenza o risorse limitate diventa impegnativa. In questo lavoro, sfruttiamo il pseudo-labelling per assemblare un dataset open-source su larga scala, che utilizziamo per distillare il modello Whisper in una variante più piccola, chiamata Distil-Whisper. Utilizzando una semplice euristica basata sul tasso di errore sulle parole (WER), selezioniamo solo le pseudo-etichette di qualità più elevata per l'addestramento. Il modello distillato è 5,8 volte più veloce con il 51% in meno di parametri, pur mantenendo una performance entro l'1% di WER su dati di test fuori distribuzione in un contesto di trasferimento zero-shot. Distil-Whisper conserva la robustezza del modello Whisper rispetto a condizioni acustiche difficili, risultando meno incline a errori di allucinazione su audio di lunga durata. Distil-Whisper è progettato per essere accoppiato con Whisper per il decoding speculativo, ottenendo un incremento di velocità di 2 volte garantendo matematicamente gli stessi output del modello originale. Per favorire ulteriori ricerche in questo ambito, rendiamo pubblicamente accessibili il codice di addestramento, il codice di inferenza e i modelli.
English
As the size of pre-trained speech recognition models increases, running these
large models in low-latency or resource-constrained environments becomes
challenging. In this work, we leverage pseudo-labelling to assemble a
large-scale open-source dataset which we use to distill the Whisper model into
a smaller variant, called Distil-Whisper. Using a simple word error rate (WER)
heuristic, we select only the highest quality pseudo-labels for training. The
distilled model is 5.8 times faster with 51% fewer parameters, while performing
to within 1% WER on out-of-distribution test data in a zero-shot transfer
setting. Distil-Whisper maintains the robustness of the Whisper model to
difficult acoustic conditions, while being less prone to hallucination errors
on long-form audio. Distil-Whisper is designed to be paired with Whisper for
speculative decoding, yielding a 2 times speed-up while mathematically ensuring
the same outputs as the original model. To facilitate further research in this
domain, we make our training code, inference code and models publicly
accessible.