Quantização para os Modelos Whisper da OpenAI: Uma Análise Comparativa
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
Autores: Allison Andreyev
cs.AI
Resumo
Modelos de reconhecimento automático de fala (ASR) ganharam destaque em aplicações como legendagem, tradução de fala e transcrição ao vivo. Este artigo estuda o Whisper e duas variantes de modelo: uma otimizada para streaming de fala ao vivo e outra para transcrição offline. Notavelmente, esses modelos foram observados gerando conteúdo alucinado, reduzindo a confiabilidade da transcrição. Além disso, variantes maiores do modelo apresentam maior latência e desafios para implantação em dispositivos com recursos limitados. Este estudo analisa as semelhanças e diferenças entre três modelos Whisper, examinando qualitativamente suas capacidades distintas. Em seguida, o estudo quantifica o impacto da quantização do modelo na latência e avalia sua viabilidade para implantação em dispositivos de borda. Utilizando o conjunto de dados LibriSpeech de código aberto, este artigo avalia a taxa de erro de palavras (WER) juntamente com a análise de latência do whispercpp usando três métodos de quantização (INT4, INT5, INT8). Os resultados mostram que a quantização reduz a latência em 19% e o tamanho do modelo em 45%, preservando a precisão da transcrição. Essas descobertas fornecem insights sobre os casos de uso ideais de diferentes modelos Whisper e as possibilidades de implantação em dispositivos de borda. Todo o código, conjuntos de dados e detalhes de implementação estão disponíveis em um repositório público do GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.git