Quantification des modèles Whisper d'OpenAI : une analyse comparative
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
Auteurs: Allison Andreyev
cs.AI
Résumé
Les modèles de reconnaissance automatique de la parole (ASR) ont gagné en importance pour des applications telles que le sous-titrage, la traduction vocale et la transcription en direct. Cet article étudie Whisper et deux variantes de modèles : une optimisée pour le streaming vocal en direct et une autre pour la transcription hors ligne. Il est à noter que ces modèles ont été observés générer du contenu halluciné, réduisant ainsi la fiabilité de la transcription. De plus, les variantes de modèles plus grandes présentent une latence accrue et posent des défis pour le déploiement sur des appareils à ressources limitées. Cette étude analyse les similitudes et les différences entre trois modèles Whisper, en examinant qualitativement leurs capacités distinctes. Ensuite, cette étude quantifie l'impact de la quantification des modèles sur la latence et évalue sa viabilité pour le déploiement en périphérie. En utilisant le jeu de données open source LibriSpeech, cet article évalue le taux d'erreur sur les mots (WER) ainsi que l'analyse de la latence de whispercpp en utilisant trois méthodes de quantification (INT4, INT5, INT8). Les résultats montrent que la quantification réduit la latence de 19 % et la taille du modèle de 45 %, tout en préservant la précision de la transcription. Ces résultats fournissent des insights sur les cas d'utilisation optimaux des différents modèles Whisper et les possibilités de déploiement sur des appareils en périphérie. Tous les codes, jeux de données et détails d'implémentation sont disponibles dans un dépôt GitHub public : https://github.com/allisonandreyev/WhisperQuantization.git.
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.gitSummary
AI-Generated Summary