Cuantización para los Modelos Whisper de OpenAI: Un Análisis Comparativo
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
Autores: Allison Andreyev
cs.AI
Resumen
Los modelos de reconocimiento automático del habla (ASR, por sus siglas en inglés) han cobrado relevancia en aplicaciones como subtitulación, traducción de voz y transcripción en tiempo real. Este artículo estudia Whisper y dos variantes del modelo: una optimizada para transmisión de voz en vivo y otra para transcripción fuera de línea. Cabe destacar que se ha observado que estos modelos generan contenido alucinado, lo que reduce la fiabilidad de la transcripción. Además, las variantes de modelos más grandes presentan una mayor latencia y plantean desafíos para su implementación en dispositivos con recursos limitados. Este estudio analiza las similitudes y diferencias entre tres modelos de Whisper, examinando cualitativamente sus capacidades distintivas. A continuación, se cuantifica el impacto de la cuantización del modelo en la latencia y se evalúa su viabilidad para implementación en dispositivos de borde. Utilizando el conjunto de datos de código abierto LibriSpeech, este artículo evalúa la tasa de error por palabra (WER, por sus siglas en inglés) junto con un análisis de latencia de whispercpp empleando tres métodos de cuantización (INT4, INT5, INT8). Los resultados muestran que la cuantización reduce la latencia en un 19% y el tamaño del modelo en un 45%, manteniendo la precisión de la transcripción. Estos hallazgos proporcionan información valiosa sobre los casos de uso óptimos de los diferentes modelos de Whisper y las posibilidades de implementación en dispositivos de borde. Todo el código, conjuntos de datos y detalles de implementación están disponibles en un repositorio público de GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.gitSummary
AI-Generated Summary