Quantizzazione per i Modelli Whisper di OpenAI: Un'Analisi Comparativa
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
Autori: Allison Andreyev
cs.AI
Abstract
I modelli di riconoscimento vocale automatico (ASR) hanno acquisito rilevanza per applicazioni come la sottotitolazione, la traduzione vocale e la trascrizione in tempo reale. Questo articolo studia Whisper e due varianti del modello: una ottimizzata per lo streaming vocale in tempo reale e un'altra per la trascrizione offline. È stato osservato che questi modelli generano contenuti allucinati, riducendo l'affidabilità della trascrizione. Inoltre, le varianti di modelli più grandi presentano una latenza aumentata e pongono sfide per il deployment su dispositivi con risorse limitate. Questo studio analizza le somiglianze e le differenze tra tre modelli Whisper, esaminando qualitativamente le loro capacità distinte. Successivamente, lo studio quantifica l'impatto della quantizzazione del modello sulla latenza e ne valuta la fattibilità per il deployment su dispositivi edge. Utilizzando il dataset open source LibriSpeech, questo articolo valuta il tasso di errore sulle parole (WER) insieme all'analisi della latenza di whispercpp utilizzando tre metodi di quantizzazione (INT4, INT5, INT8). I risultati mostrano che la quantizzazione riduce la latenza del 19\% e le dimensioni del modello del 45\%, preservando l'accuratezza della trascrizione. Questi risultati forniscono indicazioni sui casi d'uso ottimali dei diversi modelli Whisper e sulle possibilità di deployment su dispositivi edge. Tutto il codice, i dataset e i dettagli di implementazione sono disponibili in un repository GitHub pubblico: https://github.com/allisonandreyev/WhisperQuantization.git.
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.git