ChatPaper.aiChatPaper

LiteASR: Effiziente automatische Spracherkennung mit Niedrigrang-Approximation

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

February 27, 2025
Autoren: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
cs.AI

Zusammenfassung

Moderne automatische Spracherkennungsmodelle (ASR), wie OpenAIs Whisper, basieren auf tiefen Encoder-Decoder-Architekturen, wobei die Encoder aufgrund ihrer hohen Rechenintensität einen kritischen Engpass für die effiziente Bereitstellung darstellen. Wir stellen LiteASR vor, ein Low-Rank-Kompressionsverfahren für ASR-Encoder, das die Inferenzkosten erheblich reduziert, während die Transkriptionsgenauigkeit erhalten bleibt. Unser Ansatz nutzt die starken Low-Rank-Eigenschaften, die in den Zwischenaktivierungen beobachtet werden: Durch die Anwendung der Hauptkomponentenanalyse (PCA) mit einem kleinen Kalibrierungsdatensatz approximieren wir lineare Transformationen mit einer Kette von Low-Rank-Matrixmultiplikationen und optimieren die Selbstaufmerksamkeit weiter, um in der reduzierten Dimension zu arbeiten. Evaluierungsergebnisse zeigen, dass unsere Methode die Encodergröße von Whisper large-v3 um über 50 % komprimieren kann, wobei sie die Größe von Whisper medium mit besserer Transkriptionsgenauigkeit erreicht und damit eine neue Pareto-optimale Grenze für Effizienz und Leistung etabliert. Der Code von LiteASR ist unter https://github.com/efeslab/LiteASR verfügbar.
English
Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper, rely on deep encoder-decoder architectures, and their encoders are a critical bottleneck for efficient deployment due to high computational intensity. We introduce LiteASR, a low-rank compression scheme for ASR encoders that significantly reduces inference costs while maintaining transcription accuracy. Our approach leverages the strong low-rank properties observed in intermediate activations: by applying principal component analysis (PCA) with a small calibration dataset, we approximate linear transformations with a chain of low-rank matrix multiplications, and further optimize self-attention to work in the reduced dimension. Evaluation results show that our method can compress Whisper large-v3's encoder size by over 50%, matching Whisper medium's size with better transcription accuracy, thereby establishing a new Pareto-optimal frontier of efficiency and performance. The code of LiteASR is available at https://github.com/efeslab/LiteASR.

Summary

AI-Generated Summary

PDF132March 3, 2025