LiteASR: Effiziente automatische Spracherkennung mit Niedrigrang-Approximation
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
February 27, 2025
Autoren: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
cs.AI
Zusammenfassung
Moderne automatische Spracherkennungsmodelle (ASR), wie OpenAIs Whisper, basieren auf tiefen Encoder-Decoder-Architekturen, wobei die Encoder aufgrund ihrer hohen Rechenintensität einen kritischen Engpass für die effiziente Bereitstellung darstellen. Wir stellen LiteASR vor, ein Low-Rank-Kompressionsverfahren für ASR-Encoder, das die Inferenzkosten erheblich reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Unser Ansatz nutzt die starken Low-Rank-Eigenschaften, die in den Zwischenaktivierungen beobachtet werden: Durch die Anwendung der Hauptkomponentenanalyse (PCA) mit einem kleinen Kalibrierungsdatensatz approximieren wir lineare Transformationen mit einer Kette von Low-Rank-Matrixmultiplikationen und optimieren die Selbstaufmerksamkeit weiter, um in der reduzierten Dimension zu arbeiten. Evaluierungsergebnisse zeigen, dass unsere Methode die Encodergröße von Whisper large-v3 um über 50 % komprimieren kann, wobei sie die Größe von Whisper medium mit besserer Transkriptionsgenauigkeit erreicht und damit eine neue Pareto-optimale Grenze für Effizienz und Leistung etabliert. Der Code von LiteASR ist unter https://github.com/efeslab/LiteASR verfügbar.
English
Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper,
rely on deep encoder-decoder architectures, and their encoders are a critical
bottleneck for efficient deployment due to high computational intensity. We
introduce LiteASR, a low-rank compression scheme for ASR encoders that
significantly reduces inference costs while maintaining transcription accuracy.
Our approach leverages the strong low-rank properties observed in intermediate
activations: by applying principal component analysis (PCA) with a small
calibration dataset, we approximate linear transformations with a chain of
low-rank matrix multiplications, and further optimize self-attention to work in
the reduced dimension. Evaluation results show that our method can compress
Whisper large-v3's encoder size by over 50%, matching Whisper medium's size
with better transcription accuracy, thereby establishing a new Pareto-optimal
frontier of efficiency and performance. The code of LiteASR is available at
https://github.com/efeslab/LiteASR.Summary
AI-Generated Summary