Kwantisering voor OpenAI's Whisper-modellen: een vergelijkende analyse
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
Auteurs: Allison Andreyev
cs.AI
Samenvatting
Automatische spraakherkenning (ASR)-modellen hebben aan populariteit gewonnen voor toepassingen zoals ondertiteling, spraakvertaling en live transcriptie. Dit artikel bestudeert Whisper en twee modelvarianten: één geoptimaliseerd voor live spraakstreaming en een andere voor offline transcriptie. Opmerkelijk is dat deze modellen hallucinaties kunnen genereren, wat de betrouwbaarheid van de transcriptie vermindert. Bovendien vertonen grotere modelvarianten een verhoogde latentie en vormen ze uitdagingen voor implementatie op apparaten met beperkte middelen. Deze studie analyseert de overeenkomsten en verschillen tussen drie Whisper-modellen, waarbij kwalitatief hun specifieke mogelijkheden worden onderzocht. Vervolgens kwantificeert deze studie de impact van modelkwantisatie op latentie en evalueert het de haalbaarheid voor implementatie aan de rand van het netwerk. Met behulp van de open-source LibriSpeech-dataset evalueert dit artikel de woordfoutratio (WER) samen met een latentieanalyse van whispercpp met behulp van drie kwantisatiemethoden (INT4, INT5, INT8). De resultaten tonen aan dat kwantisatie de latentie met 19\% vermindert en de modelgrootte met 45\% verkleint, terwijl de transcriptienauwkeurigheid behouden blijft. Deze bevindingen bieden inzicht in de optimale gebruiksscenario's van verschillende Whisper-modellen en de mogelijkheden voor implementatie op randapparaten. Alle code, datasets en implementatiedetails zijn beschikbaar in een openbare GitHub-repository: https://github.com/allisonandreyev/WhisperQuantization.git.
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.gitSummary
AI-Generated Summary