OpenAI의 Whisper 모델 양자화: 비교 분석
Quantization for OpenAI's Whisper Models: A Comparative Analysis
March 12, 2025
저자: Allison Andreyev
cs.AI
초록
자동 음성 인식(ASR) 모델은 자막 생성, 음성 번역, 실시간 필기와 같은 응용 분야에서 두각을 나타내고 있다. 본 논문은 Whisper와 두 가지 모델 변형을 연구한다: 하나는 실시간 음성 스트리밍에 최적화되었고, 다른 하나는 오프라인 필기를 위해 설계되었다. 특히, 이러한 모델들은 환각적 내용을 생성하여 필기의 신뢰성을 저하시키는 것으로 나타났다. 또한, 더 큰 모델 변형은 지연 시간이 증가하며, 자원이 제한된 장치에 배포하기 어려운 문제를 야기한다. 본 연구는 세 가지 Whisper 모델 간의 유사점과 차이점을 분석하고, 각 모델의 고유한 능력을 정성적으로 검토한다. 다음으로, 모델 양자화가 지연 시간에 미치는 영향을 정량화하고, 이를 에지 디바이스 배포에 활용할 수 있는지 평가한다. 오픈 소스 LibriSpeech 데이터셋을 사용하여, 본 논문은 3가지 양자화 방법(INT4, INT5, INT8)을 적용한 whispercpp의 단어 오류율(WER)과 지연 시간 분석을 평가한다. 결과는 양자화가 지연 시간을 19% 줄이고 모델 크기를 45% 감소시키면서도 필기 정확도를 유지함을 보여준다. 이러한 결과는 다양한 Whisper 모델의 최적 사용 사례와 에지 디바이스 배포 가능성에 대한 통찰을 제공한다. 모든 코드, 데이터셋 및 구현 세부 사항은 공개 GitHub 저장소에서 확인할 수 있다: https://github.com/allisonandreyev/WhisperQuantization.git
English
Automated speech recognition (ASR) models have gained prominence for
applications such as captioning, speech translation, and live transcription.
This paper studies Whisper and two model variants: one optimized for live
speech streaming and another for offline transcription. Notably, these models
have been found to generate hallucinated content, reducing transcription
reliability. Furthermore, larger model variants exhibit increased latency and
pose challenges for deployment on resource-constrained devices. This study
analyzes the similarities and differences between three Whisper models,
qualitatively examining their distinct capabilities. Next, this study
quantifies the impact of model quantization on latency and evaluates its
viability for edge deployment. Using the open source LibriSpeech dataset, this
paper evaluates the word error rate (WER) along with latency analysis of
whispercpp using 3 quantization methods (INT4, INT5, INT8). Results show that
quantization reduces latency by 19\% and model size by 45\%, while preserving
transcription accuracy. These findings provide insights into the optimal use
cases of different Whisper models and edge device deployment possibilities. All
code, datasets, and implementation details are available in a public GitHub
repository: https://github.com/allisonandreyev/WhisperQuantization.gitSummary
AI-Generated Summary