LiteASR : Reconnaissance automatique de la parole efficace grâce à l'approximation de faible rang

papers.abstract

Les modèles modernes de reconnaissance automatique de la parole (ASR), tels que Whisper d'OpenAI, reposent sur des architectures profondes de type encodeur-décodeur, où les encodeurs constituent un goulot d'étranglement critique pour un déploiement efficace en raison de leur intensité computationnelle élevée. Nous présentons LiteASR, un schéma de compression à faible rang pour les encodeurs ASR qui réduit significativement les coûts d'inférence tout en maintenant la précision de la transcription. Notre approche exploite les fortes propriétés de faible rang observées dans les activations intermédiaires : en appliquant l'analyse en composantes principales (ACP) avec un petit jeu de données de calibration, nous approximons les transformations linéaires par une chaîne de multiplications matricielles de faible rang, et optimisons en outre l'auto-attention pour fonctionner dans la dimension réduite. Les résultats d'évaluation montrent que notre méthode peut compresser la taille de l'encodeur de Whisper large-v3 de plus de 50%, atteignant la taille de Whisper medium avec une meilleure précision de transcription, établissant ainsi une nouvelle frontière Pareto-optimale entre efficacité et performance. Le code de LiteASR est disponible à l'adresse https://github.com/efeslab/LiteASR.

English

Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper, rely on deep encoder-decoder architectures, and their encoders are a critical bottleneck for efficient deployment due to high computational intensity. We introduce LiteASR, a low-rank compression scheme for ASR encoders that significantly reduces inference costs while maintaining transcription accuracy. Our approach leverages the strong low-rank properties observed in intermediate activations: by applying principal component analysis (PCA) with a small calibration dataset, we approximate linear transformations with a chain of low-rank matrix multiplications, and further optimize self-attention to work in the reduced dimension. Evaluation results show that our method can compress Whisper large-v3's encoder size by over 50%, matching Whisper medium's size with better transcription accuracy, thereby establishing a new Pareto-optimal frontier of efficiency and performance. The code of LiteASR is available at https://github.com/efeslab/LiteASR.

LiteASR : Reconnaissance automatique de la parole efficace grâce à l'approximation de faible rang

LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

papers.abstract

Support