ChatPaper.aiChatPaper

Distil-Whisper: Distillazione Robust della Conoscenza tramite Etichettatura Pseudo su Larga Scala

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
Autori: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

Abstract

Con l'aumento delle dimensioni dei modelli pre-addestrati per il riconoscimento vocale, l'esecuzione di questi grandi modelli in ambienti con bassa latenza o risorse limitate diventa impegnativa. In questo lavoro, sfruttiamo il pseudo-labelling per assemblare un dataset open-source su larga scala, che utilizziamo per distillare il modello Whisper in una variante più piccola, chiamata Distil-Whisper. Utilizzando una semplice euristica basata sul tasso di errore sulle parole (WER), selezioniamo solo le pseudo-etichette di qualità più elevata per l'addestramento. Il modello distillato è 5,8 volte più veloce con il 51% in meno di parametri, pur mantenendo una performance entro l'1% di WER su dati di test fuori distribuzione in un contesto di trasferimento zero-shot. Distil-Whisper conserva la robustezza del modello Whisper rispetto a condizioni acustiche difficili, risultando meno incline a errori di allucinazione su audio di lunga durata. Distil-Whisper è progettato per essere accoppiato con Whisper per il decoding speculativo, ottenendo un incremento di velocità di 2 volte garantendo matematicamente gli stessi output del modello originale. Per favorire ulteriori ricerche in questo ambito, rendiamo pubblicamente accessibili il codice di addestramento, il codice di inferenza e i modelli.
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF562February 8, 2026