LiteASR : Reconnaissance automatique de la parole efficace grâce à l'approximation de faible rang
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
February 27, 2025
Auteurs: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
cs.AI
Résumé
Les modèles modernes de reconnaissance automatique de la parole (ASR), tels que Whisper d'OpenAI, reposent sur des architectures profondes de type encodeur-décodeur, où les encodeurs constituent un goulot d'étranglement critique pour un déploiement efficace en raison de leur intensité computationnelle élevée. Nous présentons LiteASR, un schéma de compression à faible rang pour les encodeurs ASR qui réduit significativement les coûts d'inférence tout en maintenant la précision de la transcription. Notre approche exploite les fortes propriétés de faible rang observées dans les activations intermédiaires : en appliquant l'analyse en composantes principales (ACP) avec un petit jeu de données de calibration, nous approximons les transformations linéaires par une chaîne de multiplications matricielles de faible rang, et optimisons en outre l'auto-attention pour fonctionner dans la dimension réduite. Les résultats d'évaluation montrent que notre méthode peut compresser la taille de l'encodeur de Whisper large-v3 de plus de 50%, atteignant la taille de Whisper medium avec une meilleure précision de transcription, établissant ainsi une nouvelle frontière Pareto-optimale entre efficacité et performance. Le code de LiteASR est disponible à l'adresse https://github.com/efeslab/LiteASR.
English
Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper,
rely on deep encoder-decoder architectures, and their encoders are a critical
bottleneck for efficient deployment due to high computational intensity. We
introduce LiteASR, a low-rank compression scheme for ASR encoders that
significantly reduces inference costs while maintaining transcription accuracy.
Our approach leverages the strong low-rank properties observed in intermediate
activations: by applying principal component analysis (PCA) with a small
calibration dataset, we approximate linear transformations with a chain of
low-rank matrix multiplications, and further optimize self-attention to work in
the reduced dimension. Evaluation results show that our method can compress
Whisper large-v3's encoder size by over 50%, matching Whisper medium's size
with better transcription accuracy, thereby establishing a new Pareto-optimal
frontier of efficiency and performance. The code of LiteASR is available at
https://github.com/efeslab/LiteASR.Summary
AI-Generated Summary