ChatPaper.aiChatPaper

Distil-Whisper : Distillation de connaissances robuste via un étiquetage pseudo-supervisé à grande échelle

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

November 1, 2023
Auteurs: Sanchit Gandhi, Patrick von Platen, Alexander M. Rush
cs.AI

Résumé

À mesure que la taille des modèles pré-entraînés de reconnaissance vocale augmente, l'exécution de ces grands modèles dans des environnements à faible latence ou à ressources limitées devient un défi. Dans ce travail, nous exploitons l'étiquetage pseudo-supervisé pour constituer un ensemble de données open-source à grande échelle, que nous utilisons pour distiller le modèle Whisper en une variante plus petite, appelée Distil-Whisper. En utilisant une heuristique simple basée sur le taux d'erreur sur les mots (WER), nous sélectionnons uniquement les pseudo-étiquettes de la plus haute qualité pour l'entraînement. Le modèle distillé est 5,8 fois plus rapide avec 51 % de paramètres en moins, tout en obtenant des performances à moins de 1 % de WER sur des données de test hors distribution dans un cadre de transfert zero-shot. Distil-Whisper conserve la robustesse du modèle Whisper face à des conditions acoustiques difficiles, tout en étant moins sujet aux erreurs d'hallucination sur des enregistrements audio de longue durée. Distil-Whisper est conçu pour être utilisé conjointement avec Whisper dans un cadre de décodage spéculatif, offrant une accélération de 2 fois tout en garantissant mathématiquement les mêmes sorties que le modèle original. Pour faciliter les recherches ultérieures dans ce domaine, nous rendons notre code d'entraînement, notre code d'inférence et nos modèles accessibles au public.
English
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
PDF582December 15, 2024