LiteASR: Reconhecimento Automático de Fala Eficiente com Aproximação de Baixo Rank
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
February 27, 2025
Autores: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
cs.AI
Resumo
Os modelos modernos de reconhecimento automático de fala (ASR, na sigla em inglês), como o Whisper da OpenAI, dependem de arquiteturas profundas de codificador-decodificador, e seus codificadores representam um gargalo crítico para implantação eficiente devido à alta intensidade computacional. Apresentamos o LiteASR, um esquema de compressão de baixo posto para codificadores de ASR que reduz significativamente os custos de inferência enquanto mantém a precisão na transcrição. Nossa abordagem aproveita as fortes propriedades de baixo posto observadas nas ativações intermediárias: ao aplicar a análise de componentes principais (PCA, na sigla em inglês) com um pequeno conjunto de dados de calibração, aproximamos transformações lineares com uma cadeia de multiplicações de matrizes de baixo posto e otimizamos ainda mais a auto-atenção para operar na dimensão reduzida. Os resultados da avaliação mostram que nosso método pode comprimir o tamanho do codificador do Whisper large-v3 em mais de 50%, igualando o tamanho do Whisper medium com melhor precisão na transcrição, estabelecendo assim uma nova fronteira Pareto-ótima de eficiência e desempenho. O código do LiteASR está disponível em https://github.com/efeslab/LiteASR.
English
Modern automatic speech recognition (ASR) models, such as OpenAI's Whisper,
rely on deep encoder-decoder architectures, and their encoders are a critical
bottleneck for efficient deployment due to high computational intensity. We
introduce LiteASR, a low-rank compression scheme for ASR encoders that
significantly reduces inference costs while maintaining transcription accuracy.
Our approach leverages the strong low-rank properties observed in intermediate
activations: by applying principal component analysis (PCA) with a small
calibration dataset, we approximate linear transformations with a chain of
low-rank matrix multiplications, and further optimize self-attention to work in
the reduced dimension. Evaluation results show that our method can compress
Whisper large-v3's encoder size by over 50%, matching Whisper medium's size
with better transcription accuracy, thereby establishing a new Pareto-optimal
frontier of efficiency and performance. The code of LiteASR is available at
https://github.com/efeslab/LiteASR.Summary
AI-Generated Summary