ChatPaper.aiChatPaper

Distil-Whisper: 大規模な擬似ラベリングによるロバストな知識蒸縮

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
著者: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

要旨

事前学習済み音声認識モデルのサイズが大きくなるにつれ、これらの大規模モデルを低遅延またはリソース制約のある環境で実行することが困難になっています。本研究では、擬似ラベリングを活用して大規模なオープンソースデータセットを構築し、Whisperモデルをより小型のバージョンであるDistil-Whisperに蒸留しました。単純な単語誤り率(WER)ヒューリスティックを使用して、トレーニング用に最高品質の擬似ラベルのみを選択しています。蒸留されたモデルは5.8倍高速で、パラメータ数が51%少なく、ゼロショット転移設定における分布外テストデータでのWERは1%以内の性能を維持しています。Distil-Whisperは、Whisperモデルの困難な音響条件に対する頑健性を維持しつつ、長時間音声での幻覚エラーが発生しにくくなっています。Distil-Whisperは、Whisperと組み合わせて推測的デコードを行うように設計されており、元のモデルと同じ出力を数学的に保証しながら2倍の高速化を実現します。この分野のさらなる研究を促進するため、トレーニングコード、推論コード、およびモデルを公開しています。
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF582December 15, 2024