Distil-Whisper: Robuuste Kennisdistillatie via Grootschalige Pseudo-labeling
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
November 1, 2023
Auteurs: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI
Samenvatting
Naarmate de omvang van vooraf getrainde spraakherkenningsmodellen toeneemt, wordt het uitvoeren van deze grote modellen in omgevingen met lage latentie of beperkte middelen een uitdaging. In dit werk maken we gebruik van pseudo-labeling om een grootschalige open-source dataset samen te stellen, die we gebruiken om het Whisper-model te destilleren naar een kleinere variant, genaamd Distil-Whisper. Met behulp van een eenvoudige heuristiek voor de woordfoutratio (WER) selecteren we alleen de hoogste kwaliteit pseudo-labels voor training. Het gedestilleerde model is 5,8 keer sneller met 51% minder parameters, terwijl het presteert binnen 1% WER op out-of-distribution testdata in een zero-shot transfer setting. Distil-Whisper behoudt de robuustheid van het Whisper-model tegen moeilijke akoestische omstandigheden, terwijl het minder gevoelig is voor hallucinatiefouten bij lange audiofragmenten. Distil-Whisper is ontworpen om te worden gecombineerd met Whisper voor speculatieve decodering, wat een 2 keer snellere verwerking oplevert terwijl wiskundig wordt gegarandeerd dat de uitvoer hetzelfde is als die van het originele model. Om verder onderzoek in dit domein te faciliteren, maken we onze trainingscode, inferentiecode en modellen publiekelijk toegankelijk.
English
As the size of pre-trained speech recognition models increases, running these
large models in low-latency or resource-constrained environments becomes
challenging. In this work, we leverage pseudo-labelling to assemble a
large-scale open-source dataset which we use to distill the Whisper model into
a smaller variant, called Distil-Whisper. Using a simple word error rate (WER)
heuristic, we select only the highest quality pseudo-labels for training. The
distilled model is 5.8 times faster with 51% fewer parameters, while performing
to within 1% WER on out-of-distribution test data in a zero-shot transfer
setting. Distil-Whisper maintains the robustness of the Whisper model to
difficult acoustic conditions, while being less prone to hallucination errors
on long-form audio. Distil-Whisper is designed to be paired with Whisper for
speculative decoding, yielding a 2 times speed-up while mathematically ensuring
the same outputs as the original model. To facilitate further research in this
domain, we make our training code, inference code and models publicly
accessible.