Distil-Whisper: 大規模な擬似ラベリングによるロバストな知識蒸縮
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
November 1, 2023
著者: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI
要旨
事前学習済み音声認識モデルのサイズが大きくなるにつれ、これらの大規模モデルを低遅延またはリソース制約のある環境で実行することが困難になっています。本研究では、擬似ラベリングを活用して大規模なオープンソースデータセットを構築し、Whisperモデルをより小型のバージョンであるDistil-Whisperに蒸留しました。単純な単語誤り率(WER)ヒューリスティックを使用して、トレーニング用に最高品質の擬似ラベルのみを選択しています。蒸留されたモデルは5.8倍高速で、パラメータ数が51%少なく、ゼロショット転移設定における分布外テストデータでのWERは1%以内の性能を維持しています。Distil-Whisperは、Whisperモデルの困難な音響条件に対する頑健性を維持しつつ、長時間音声での幻覚エラーが発生しにくくなっています。Distil-Whisperは、Whisperと組み合わせて推測的デコードを行うように設計されており、元のモデルと同じ出力を数学的に保証しながら2倍の高速化を実現します。この分野のさらなる研究を促進するため、トレーニングコード、推論コード、およびモデルを公開しています。
English
As the size of pre-trained speech recognition models increases, running these
large models in low-latency or resource-constrained environments becomes
challenging. In this work, we leverage pseudo-labelling to assemble a
large-scale open-source dataset which we use to distill the Whisper model into
a smaller variant, called Distil-Whisper. Using a simple word error rate (WER)
heuristic, we select only the highest quality pseudo-labels for training. The
distilled model is 5.8 times faster with 51% fewer parameters, while performing
to within 1% WER on out-of-distribution test data in a zero-shot transfer
setting. Distil-Whisper maintains the robustness of the Whisper model to
difficult acoustic conditions, while being less prone to hallucination errors
on long-form audio. Distil-Whisper is designed to be paired with Whisper for
speculative decoding, yielding a 2 times speed-up while mathematically ensuring
the same outputs as the original model. To facilitate further research in this
domain, we make our training code, inference code and models publicly
accessible.