Квантование моделей Whisper от OpenAI: сравнительный анализ

Аннотация

Модели автоматического распознавания речи (ASR) приобрели значительную популярность для таких задач, как создание субтитров, перевод речи и транскрибирование в реальном времени. В данной статье исследуются модель Whisper и два её варианта: один оптимизирован для потоковой обработки живой речи, а другой — для оффлайн-транскрибирования. Примечательно, что было обнаружено, что эти модели могут генерировать ложный контент, что снижает надёжность транскрипции. Кроме того, более крупные варианты моделей демонстрируют увеличенную задержку и создают сложности для развёртывания на устройствах с ограниченными ресурсами. В данном исследовании анализируются сходства и различия между тремя моделями Whisper, качественно оцениваются их уникальные возможности. Далее в работе количественно оценивается влияние квантования модели на задержку и исследуется его пригодность для развёртывания на периферийных устройствах. Используя открытый набор данных LibriSpeech, в статье оценивается частота ошибок по словам (WER) и проводится анализ задержки для whispercpp с использованием трёх методов квантования (INT4, INT5, INT8). Результаты показывают, что квантование снижает задержку на 19\% и размер модели на 45\%, сохраняя при этом точность транскрипции. Эти результаты дают представление об оптимальных сценариях использования различных моделей Whisper и возможностях их развёртывания на периферийных устройствах. Весь код, наборы данных и детали реализации доступны в публичном репозитории GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.

English

Automated speech recognition (ASR) models have gained prominence for applications such as captioning, speech translation, and live transcription. This paper studies Whisper and two model variants: one optimized for live speech streaming and another for offline transcription. Notably, these models have been found to generate hallucinated content, reducing transcription reliability. Furthermore, larger model variants exhibit increased latency and pose challenges for deployment on resource-constrained devices. This study analyzes the similarities and differences between three Whisper models, qualitatively examining their distinct capabilities. Next, this study quantifies the impact of model quantization on latency and evaluates its viability for edge deployment. Using the open source LibriSpeech dataset, this paper evaluates the word error rate (WER) along with latency analysis of whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that quantization reduces latency by 19\% and model size by 45\%, while preserving transcription accuracy. These findings provide insights into the optimal use cases of different Whisper models and edge device deployment possibilities. All code, datasets, and implementation details are available in a public GitHub repository: https://github.com/allisonandreyev/WhisperQuantization.git

Квантование моделей Whisper от OpenAI: сравнительный анализ

Quantization for OpenAI's Whisper Models: A Comparative Analysis

Аннотация

Support