Cuantización para los Modelos Whisper de OpenAI: Un Análisis Comparativo

Resumen

Los modelos de reconocimiento automático del habla (ASR, por sus siglas en inglés) han cobrado relevancia en aplicaciones como subtitulación, traducción de voz y transcripción en tiempo real. Este artículo estudia Whisper y dos variantes del modelo: una optimizada para transmisión de voz en vivo y otra para transcripción fuera de línea. Cabe destacar que se ha observado que estos modelos generan contenido alucinado, lo que reduce la fiabilidad de la transcripción. Además, las variantes de modelos más grandes presentan una mayor latencia y plantean desafíos para su implementación en dispositivos con recursos limitados. Este estudio analiza las similitudes y diferencias entre tres modelos de Whisper, examinando cualitativamente sus capacidades distintivas. A continuación, se cuantifica el impacto de la cuantización del modelo en la latencia y se evalúa su viabilidad para implementación en dispositivos de borde. Utilizando el conjunto de datos de código abierto LibriSpeech, este artículo evalúa la tasa de error por palabra (WER, por sus siglas en inglés) junto con un análisis de latencia de whispercpp empleando tres métodos de cuantización (INT4, INT5, INT8). Los resultados muestran que la cuantización reduce la latencia en un 19% y el tamaño del modelo en un 45%, manteniendo la precisión de la transcripción. Estos hallazgos proporcionan información valiosa sobre los casos de uso óptimos de los diferentes modelos de Whisper y las posibilidades de implementación en dispositivos de borde. Todo el código, conjuntos de datos y detalles de implementación están disponibles en un repositorio público de GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.

English

Automated speech recognition (ASR) models have gained prominence for applications such as captioning, speech translation, and live transcription. This paper studies Whisper and two model variants: one optimized for live speech streaming and another for offline transcription. Notably, these models have been found to generate hallucinated content, reducing transcription reliability. Furthermore, larger model variants exhibit increased latency and pose challenges for deployment on resource-constrained devices. This study analyzes the similarities and differences between three Whisper models, qualitatively examining their distinct capabilities. Next, this study quantifies the impact of model quantization on latency and evaluates its viability for edge deployment. Using the open source LibriSpeech dataset, this paper evaluates the word error rate (WER) along with latency analysis of whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that quantization reduces latency by 19\% and model size by 45\%, while preserving transcription accuracy. These findings provide insights into the optimal use cases of different Whisper models and edge device deployment possibilities. All code, datasets, and implementation details are available in a public GitHub repository: https://github.com/allisonandreyev/WhisperQuantization.git

Cuantización para los Modelos Whisper de OpenAI: Un Análisis Comparativo

Quantization for OpenAI's Whisper Models: A Comparative Analysis

Resumen

Support