Aceleración de Transductores mediante la Fusión de Tokens Adyacentes
Accelerating Transducers through Adjacent Token Merging
June 28, 2023
Autores: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
cs.AI
Resumen
Los sistemas recientes de reconocimiento automático del habla (ASR) de extremo a extremo suelen utilizar un codificador acústico basado en Transformers que genera embeddings a una alta tasa de fotogramas. Sin embargo, este diseño es ineficiente, especialmente para señales de habla largas, debido al cálculo cuadrático de la autoatención. Para abordar este problema, proponemos un nuevo método, Fusión de Tokens Adyacentes (A-ToMe), que combina gradualmente tokens adyacentes con puntuaciones de similitud altas entre sus valores clave. De esta manera, se puede reducir el número total de pasos de tiempo, y se acelera la inferencia tanto del codificador como de la red conjunta. Los experimentos en LibriSpeech muestran que nuestro método puede reducir un 57% de los tokens y mejorar la velocidad de inferencia en GPU en un 70% sin una pérdida notable de precisión. Además, demostramos que A-ToMe también es una solución efectiva para reducir tokens en ASR de formato largo, donde el habla de entrada consiste en múltiples enunciados.
English
Recent end-to-end automatic speech recognition (ASR) systems often utilize a
Transformer-based acoustic encoder that generates embedding at a high frame
rate. However, this design is inefficient, particularly for long speech signals
due to the quadratic computation of self-attention. To address this, we propose
a new method, Adjacent Token Merging (A-ToMe), which gradually combines
adjacent tokens with high similarity scores between their key values. In this
way, the total time step could be reduced, and the inference of both the
encoder and joint network is accelerated. Experiments on LibriSpeech show that
our method can reduce 57% of tokens and improve the inference speed on GPU by
70% without any notable loss of accuracy. Additionally, we demonstrate that
A-ToMe is also an effective solution to reduce tokens in long-form ASR, where
the input speech consists of multiple utterances.