LiteASR: Riconoscimento Vocale Automatico Efficiente con Approssimazione a Basso Rango
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
February 27, 2025
Autori: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
cs.AI
Abstract
I moderni modelli di riconoscimento vocale automatico (ASR), come Whisper di OpenAI, si basano su architetture profonde di tipo encoder-decoder, dove gli encoder rappresentano un collo di bottiglia critico per un dispiegamento efficiente a causa dell'elevata intensità computazionale. Presentiamo LiteASR, uno schema di compressione a basso rango per gli encoder ASR che riduce significativamente i costi di inferenza mantenendo l'accuratezza della trascrizione. Il nostro approccio sfrutta le forti proprietà di basso rango osservate nelle attivazioni intermedie: applicando l'analisi delle componenti principali (PCA) con un piccolo dataset di calibrazione, approssimiamo le trasformazioni lineari con una catena di moltiplicazioni di matrici a basso rango e ottimizziamo ulteriormente il self-attention per operare nella dimensione ridotta. I risultati di valutazione mostrano che il nostro metodo può comprimere le dimensioni dell'encoder di Whisper large-v3 di oltre il 50%, eguagliando le dimensioni di Whisper medium con una migliore accuratezza di trascrizione, stabilendo così una nuova frontiera Pareto-ottimale di efficienza e prestazioni. Il codice di LiteASR è disponibile all'indirizzo https://github.com/efeslab/LiteASR.
English
Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper,
rely on deep encoder-decoder architectures, and their encoders are a critical
bottleneck for efficient deployment due to high computational intensity. We
introduce LiteASR, a low-rank compression scheme for ASR encoders that
significantly reduces inference costs while maintaining transcription accuracy.
Our approach leverages the strong low-rank properties observed in intermediate
activations: by applying principal component analysis (PCA) with a small
calibration dataset, we approximate linear transformations with a chain of
low-rank matrix multiplications, and further optimize self-attention to work in
the reduced dimension. Evaluation results show that our method can compress
Whisper large-v3's encoder size by over 50%, matching Whisper medium's size
with better transcription accuracy, thereby establishing a new Pareto-optimal
frontier of efficiency and performance. The code of LiteASR is available at
https://github.com/efeslab/LiteASR.Summary
AI-Generated Summary