Distil-Whisper: Distillazione Robust della Conoscenza tramite Etichettatura Pseudo su Larga Scala

Abstract

Con l'aumento delle dimensioni dei modelli pre-addestrati per il riconoscimento vocale, l'esecuzione di questi grandi modelli in ambienti con bassa latenza o risorse limitate diventa impegnativa. In questo lavoro, sfruttiamo il pseudo-labelling per assemblare un dataset open-source su larga scala, che utilizziamo per distillare il modello Whisper in una variante più piccola, chiamata Distil-Whisper. Utilizzando una semplice euristica basata sul tasso di errore sulle parole (WER), selezioniamo solo le pseudo-etichette di qualità più elevata per l'addestramento. Il modello distillato è 5,8 volte più veloce con il 51% in meno di parametri, pur mantenendo una performance entro l'1% di WER su dati di test fuori distribuzione in un contesto di trasferimento zero-shot. Distil-Whisper conserva la robustezza del modello Whisper rispetto a condizioni acustiche difficili, risultando meno incline a errori di allucinazione su audio di lunga durata. Distil-Whisper è progettato per essere accoppiato con Whisper per il decoding speculativo, ottenendo un incremento di velocità di 2 volte garantendo matematicamente gli stessi output del modello originale. Per favorire ulteriori ricerche in questo ambito, rendiamo pubblicamente accessibili il codice di addestramento, il codice di inferenza e i modelli.

English

As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.

Distil-Whisper: Distillazione Robust della Conoscenza tramite Etichettatura Pseudo su Larga Scala

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

Abstract

Support