ChatPaper.aiChatPaper

Accelerazione dei Trasduttori tramite Fusione di Token Adiacenti

Accelerating Transducers through Adjacent Token Merging

June 28, 2023
Autori: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
cs.AI

Abstract

I recenti sistemi end-to-end per il riconoscimento automatico del parlato (ASR) spesso utilizzano un codificatore acustico basato su Transformer che genera embedding a una frequenza di frame elevata. Tuttavia, questo design risulta inefficiente, specialmente per segnali vocali lunghi, a causa del calcolo quadratico dell'auto-attenzione. Per affrontare questo problema, proponiamo un nuovo metodo, chiamato Adjacent Token Merging (A-ToMe), che combina gradualmente token adiacenti con punteggi di similarità elevati tra i loro valori chiave. In questo modo, il numero totale di passaggi temporali può essere ridotto, accelerando l'inferenza sia del codificatore che della rete congiunta. Esperimenti su LibriSpeech dimostrano che il nostro metodo può ridurre il 57% dei token e migliorare la velocità di inferenza su GPU del 70% senza una perdita significativa di accuratezza. Inoltre, dimostriamo che A-ToMe è anche una soluzione efficace per ridurre i token nell'ASR a lungo formato, dove il parlato in input è composto da più enunciati.
English
Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.
PDF20December 15, 2024