ChatPaper.aiChatPaper

Aceleración de Transductores mediante la Fusión de Tokens Adyacentes

Accelerating Transducers through Adjacent Token Merging

June 28, 2023
Autores: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
cs.AI

Resumen

Los sistemas recientes de reconocimiento automático del habla (ASR) de extremo a extremo suelen utilizar un codificador acústico basado en Transformers que genera embeddings a una alta tasa de fotogramas. Sin embargo, este diseño es ineficiente, especialmente para señales de habla largas, debido al cálculo cuadrático de la autoatención. Para abordar este problema, proponemos un nuevo método, Fusión de Tokens Adyacentes (A-ToMe), que combina gradualmente tokens adyacentes con puntuaciones de similitud altas entre sus valores clave. De esta manera, se puede reducir el número total de pasos de tiempo, y se acelera la inferencia tanto del codificador como de la red conjunta. Los experimentos en LibriSpeech muestran que nuestro método puede reducir un 57% de los tokens y mejorar la velocidad de inferencia en GPU en un 70% sin una pérdida notable de precisión. Además, demostramos que A-ToMe también es una solución efectiva para reducir tokens en ASR de formato largo, donde el habla de entrada consiste en múltiples enunciados.
English
Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.
PDF20December 15, 2024