LiteASR: Riconoscimento Vocale Automatico Efficiente con Approssimazione a Basso Rango

Abstract

I moderni modelli di riconoscimento vocale automatico (ASR), come Whisper di OpenAI, si basano su architetture profonde di tipo encoder-decoder, dove gli encoder rappresentano un collo di bottiglia critico per un dispiegamento efficiente a causa dell'elevata intensità computazionale. Presentiamo LiteASR, uno schema di compressione a basso rango per gli encoder ASR che riduce significativamente i costi di inferenza mantenendo l'accuratezza della trascrizione. Il nostro approccio sfrutta le forti proprietà di basso rango osservate nelle attivazioni intermedie: applicando l'analisi delle componenti principali (PCA) con un piccolo dataset di calibrazione, approssimiamo le trasformazioni lineari con una catena di moltiplicazioni di matrici a basso rango e ottimizziamo ulteriormente il self-attention per operare nella dimensione ridotta. I risultati di valutazione mostrano che il nostro metodo può comprimere le dimensioni dell'encoder di Whisper large-v3 di oltre il 50%, eguagliando le dimensioni di Whisper medium con una migliore accuratezza di trascrizione, stabilendo così una nuova frontiera Pareto-ottimale di efficienza e prestazioni. Il codice di LiteASR è disponibile all'indirizzo https://github.com/efeslab/LiteASR.

English

Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper, rely on deep encoder-decoder architectures, and their encoders are a critical bottleneck for efficient deployment due to high computational intensity. We introduce LiteASR, a low-rank compression scheme for ASR encoders that significantly reduces inference costs while maintaining transcription accuracy. Our approach leverages the strong low-rank properties observed in intermediate activations: by applying principal component analysis (PCA) with a small calibration dataset, we approximate linear transformations with a chain of low-rank matrix multiplications, and further optimize self-attention to work in the reduced dimension. Evaluation results show that our method can compress Whisper large-v3's encoder size by over 50%, matching Whisper medium's size with better transcription accuracy, thereby establishing a new Pareto-optimal frontier of efficiency and performance. The code of LiteASR is available at https://github.com/efeslab/LiteASR.

LiteASR: Riconoscimento Vocale Automatico Efficiente con Approssimazione a Basso Rango

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Abstract

Support