ChatPaper.aiChatPaper

Distil-Whisper: Надежное дистилляция знаний через крупномасштабную псевдоразметку

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
Авторы: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

Аннотация

С увеличением размеров предварительно обученных моделей распознавания речи, использование этих крупных моделей в условиях низкой задержки или ограниченных ресурсов становится сложной задачей. В данной работе мы используем псевдоразметку для создания крупномасштабного открытого набора данных, который применяем для дистилляции модели Whisper в более компактный вариант, называемый Distil-Whisper. Используя простую эвристику на основе частоты ошибок по словам (WER), мы отбираем только наиболее качественные псевдоразметки для обучения. Дистиллированная модель работает в 5,8 раз быстрее и имеет на 51% меньше параметров, при этом демонстрируя отклонение в WER не более 1% на тестовых данных вне распределения в условиях zero-shot переноса. Distil-Whisper сохраняет устойчивость модели Whisper к сложным акустическим условиям, одновременно снижая склонность к ошибкам галлюцинаций на длинных аудиозаписях. Distil-Whisper разработан для совместного использования с Whisper в рамках спекулятивного декодирования, что обеспечивает ускорение в 2 раза при математической гарантии идентичности выходных данных с оригинальной моделью. Для содействия дальнейшим исследованиям в этой области мы делаем наш обучающий код, код для вывода и модели общедоступными.
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF582December 15, 2024