Distil-Whisper: Надежное дистилляция знаний через крупномасштабную псевдоразметку
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
November 1, 2023
Авторы: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI
Аннотация
С увеличением размеров предварительно обученных моделей распознавания речи, использование этих крупных моделей в условиях низкой задержки или ограниченных ресурсов становится сложной задачей. В данной работе мы используем псевдоразметку для создания крупномасштабного открытого набора данных, который применяем для дистилляции модели Whisper в более компактный вариант, называемый Distil-Whisper. Используя простую эвристику на основе частоты ошибок по словам (WER), мы отбираем только наиболее качественные псевдоразметки для обучения. Дистиллированная модель работает в 5,8 раз быстрее и имеет на 51% меньше параметров, при этом демонстрируя отклонение в WER не более 1% на тестовых данных вне распределения в условиях zero-shot переноса. Distil-Whisper сохраняет устойчивость модели Whisper к сложным акустическим условиям, одновременно снижая склонность к ошибкам галлюцинаций на длинных аудиозаписях. Distil-Whisper разработан для совместного использования с Whisper в рамках спекулятивного декодирования, что обеспечивает ускорение в 2 раза при математической гарантии идентичности выходных данных с оригинальной моделью. Для содействия дальнейшим исследованиям в этой области мы делаем наш обучающий код, код для вывода и модели общедоступными.
English
As the size of pre-trained speech recognition models increases, running these
large models in low-latency or resource-constrained environments becomes
challenging. In this work, we leverage pseudo-labelling to assemble a
large-scale open-source dataset which we use to distill the Whisper model into
a smaller variant, called Distil-Whisper. Using a simple word error rate (WER)
heuristic, we select only the highest quality pseudo-labels for training. The
distilled model is 5.8 times faster with 51% fewer parameters, while performing
to within 1% WER on out-of-distribution test data in a zero-shot transfer
setting. Distil-Whisper maintains the robustness of the Whisper model to
difficult acoustic conditions, while being less prone to hallucination errors
on long-form audio. Distil-Whisper is designed to be paired with Whisper for
speculative decoding, yielding a 2 times speed-up while mathematically ensuring
the same outputs as the original model. To facilitate further research in this
domain, we make our training code, inference code and models publicly
accessible.