LiteASR: Efficiënte Automatische Spraakherkenning met Laag-Rang Benadering
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
February 27, 2025
Auteurs: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
cs.AI
Samenvatting
Moderne automatische spraakherkenning (ASR) modellen, zoals OpenAI's Whisper, zijn gebaseerd op diepe encoder-decoder architecturen, waarbij de encoders een kritieke bottleneck vormen voor efficiënte implementatie vanwege de hoge rekenintensiteit. Wij introduceren LiteASR, een compressieschema met lage rang voor ASR-encoders dat de inferentiekosten aanzienlijk verlaagt terwijl de transcriptienauwkeurigheid behouden blijft. Onze aanpak maakt gebruik van de sterke eigenschappen met lage rang die worden waargenomen in tussenliggende activaties: door het toepassen van hoofdcomponentenanalyse (PCA) met een kleine kalibratiedataset, benaderen we lineaire transformaties met een keten van matrixvermenigvuldigingen met lage rang, en optimaliseren we verder self-attention om te werken in de gereduceerde dimensie. Evaluatieresultaten tonen aan dat onze methode de encoder-grootte van Whisper large-v3 met meer dan 50% kan comprimeren, waarbij de grootte van Whisper medium wordt geëvenaard met betere transcriptienauwkeurigheid, waardoor een nieuwe Pareto-optimale grens van efficiëntie en prestaties wordt gevestigd. De code van LiteASR is beschikbaar op https://github.com/efeslab/LiteASR.
English
Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper,
rely on deep encoder-decoder architectures, and their encoders are a critical
bottleneck for efficient deployment due to high computational intensity. We
introduce LiteASR, a low-rank compression scheme for ASR encoders that
significantly reduces inference costs while maintaining transcription accuracy.
Our approach leverages the strong low-rank properties observed in intermediate
activations: by applying principal component analysis (PCA) with a small
calibration dataset, we approximate linear transformations with a chain of
low-rank matrix multiplications, and further optimize self-attention to work in
the reduced dimension. Evaluation results show that our method can compress
Whisper large-v3's encoder size by over 50%, matching Whisper medium's size
with better transcription accuracy, thereby establishing a new Pareto-optimal
frontier of efficiency and performance. The code of LiteASR is available at
https://github.com/efeslab/LiteASR.Summary
AI-Generated Summary