Quantizzazione per i Modelli Whisper di OpenAI: Un'Analisi Comparativa

Abstract

I modelli di riconoscimento vocale automatico (ASR) hanno acquisito rilevanza per applicazioni come la sottotitolazione, la traduzione vocale e la trascrizione in tempo reale. Questo articolo studia Whisper e due varianti del modello: una ottimizzata per lo streaming vocale in tempo reale e un'altra per la trascrizione offline. È stato osservato che questi modelli generano contenuti allucinati, riducendo l'affidabilità della trascrizione. Inoltre, le varianti di modelli più grandi presentano una latenza aumentata e pongono sfide per il deployment su dispositivi con risorse limitate. Questo studio analizza le somiglianze e le differenze tra tre modelli Whisper, esaminando qualitativamente le loro capacità distinte. Successivamente, lo studio quantifica l'impatto della quantizzazione del modello sulla latenza e ne valuta la fattibilità per il deployment su dispositivi edge. Utilizzando il dataset open source LibriSpeech, questo articolo valuta il tasso di errore sulle parole (WER) insieme all'analisi della latenza di whispercpp utilizzando tre metodi di quantizzazione (INT4, INT5, INT8). I risultati mostrano che la quantizzazione riduce la latenza del 19\% e le dimensioni del modello del 45\%, preservando l'accuratezza della trascrizione. Questi risultati forniscono indicazioni sui casi d'uso ottimali dei diversi modelli Whisper e sulle possibilità di deployment su dispositivi edge. Tutto il codice, i dataset e i dettagli di implementazione sono disponibili in un repository GitHub pubblico: https://github.com/allisonandreyev/WhisperQuantization.git.

English

Automated speech recognition (ASR) models have gained prominence for applications such as captioning, speech translation, and live transcription. This paper studies Whisper and two model variants: one optimized for live speech streaming and another for offline transcription. Notably, these models have been found to generate hallucinated content, reducing transcription reliability. Furthermore, larger model variants exhibit increased latency and pose challenges for deployment on resource-constrained devices. This study analyzes the similarities and differences between three Whisper models, qualitatively examining their distinct capabilities. Next, this study quantifies the impact of model quantization on latency and evaluates its viability for edge deployment. Using the open source LibriSpeech dataset, this paper evaluates the word error rate (WER) along with latency analysis of whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that quantization reduces latency by 19\% and model size by 45\%, while preserving transcription accuracy. These findings provide insights into the optimal use cases of different Whisper models and edge device deployment possibilities. All code, datasets, and implementation details are available in a public GitHub repository: https://github.com/allisonandreyev/WhisperQuantization.git

Quantizzazione per i Modelli Whisper di OpenAI: Un'Analisi Comparativa

Quantization for OpenAI's Whisper Models: A Comparative Analysis

Abstract

Support