ChatPaper.aiChatPaper

Distil-Whisper: Robuste Wissensdistillation durch groß angelegte Pseudolabelierung

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
Autoren: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

Zusammenfassung

Mit zunehmender Größe vortrainierter Spracherkennungsmodelle wird der Einsatz dieser großen Modelle in Umgebungen mit geringer Latenz oder begrenzten Ressourcen zunehmend herausfordernd. In dieser Arbeit nutzen wir Pseudo-Labeling, um einen umfangreichen Open-Source-Datensatz zusammenzustellen, den wir verwenden, um das Whisper-Modell in eine kleinere Variante, genannt Distil-Whisper, zu destillieren. Mithilfe einer einfachen Heuristik basierend auf der Wortfehlerrate (WER) wählen wir nur die qualitativ hochwertigsten Pseudo-Labels für das Training aus. Das destillierte Modell ist 5,8-mal schneller und verfügt über 51 % weniger Parameter, während es in einem Zero-Shot-Transfer-Szenario auf Out-of-Distribution-Testdaten eine WER innerhalb von 1 % des Originalmodells erreicht. Distil-Whisper bewahrt die Robustheit des Whisper-Modells gegenüber schwierigen akustischen Bedingungen, ist jedoch weniger anfällig für Halluzinationsfehler bei langen Audioaufnahmen. Distil-Whisper ist darauf ausgelegt, mit Whisper für spekulative Dekodierung kombiniert zu werden, was eine Beschleunigung um das 2-fache ermöglicht, während mathematisch sichergestellt wird, dass die Ausgaben mit denen des Originalmodells übereinstimmen. Um weitere Forschungen in diesem Bereich zu fördern, stellen wir unseren Trainingscode, Inferenzcode und die Modelle öffentlich zur Verfügung.
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF582December 15, 2024