LiteASR: Efficiënte Automatische Spraakherkenning met Laag-Rang Benadering

Samenvatting

Moderne automatische spraakherkenning (ASR) modellen, zoals OpenAI's Whisper, zijn gebaseerd op diepe encoder-decoder architecturen, waarbij de encoders een kritieke bottleneck vormen voor efficiënte implementatie vanwege de hoge rekenintensiteit. Wij introduceren LiteASR, een compressieschema met lage rang voor ASR-encoders dat de inferentiekosten aanzienlijk verlaagt terwijl de transcriptienauwkeurigheid behouden blijft. Onze aanpak maakt gebruik van de sterke eigenschappen met lage rang die worden waargenomen in tussenliggende activaties: door het toepassen van hoofdcomponentenanalyse (PCA) met een kleine kalibratiedataset, benaderen we lineaire transformaties met een keten van matrixvermenigvuldigingen met lage rang, en optimaliseren we verder self-attention om te werken in de gereduceerde dimensie. Evaluatieresultaten tonen aan dat onze methode de encoder-grootte van Whisper large-v3 met meer dan 50% kan comprimeren, waarbij de grootte van Whisper medium wordt geëvenaard met betere transcriptienauwkeurigheid, waardoor een nieuwe Pareto-optimale grens van efficiëntie en prestaties wordt gevestigd. De code van LiteASR is beschikbaar op https://github.com/efeslab/LiteASR.

English

Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper, rely on deep encoder-decoder architectures, and their encoders are a critical bottleneck for efficient deployment due to high computational intensity. We introduce LiteASR, a low-rank compression scheme for ASR encoders that significantly reduces inference costs while maintaining transcription accuracy. Our approach leverages the strong low-rank properties observed in intermediate activations: by applying principal component analysis (PCA) with a small calibration dataset, we approximate linear transformations with a chain of low-rank matrix multiplications, and further optimize self-attention to work in the reduced dimension. Evaluation results show that our method can compress Whisper large-v3's encoder size by over 50%, matching Whisper medium's size with better transcription accuracy, thereby establishing a new Pareto-optimal frontier of efficiency and performance. The code of LiteASR is available at https://github.com/efeslab/LiteASR.

LiteASR: Efficiënte Automatische Spraakherkenning met Laag-Rang Benadering

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Samenvatting

Support