Versnellen van Transducers via Samenvoegen van Aangrenzende Tokens
Accelerating Transducers through Adjacent Token Merging
June 28, 2023
Auteurs: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
cs.AI
Samenvatting
Recente end-to-end automatische spraakherkenningssystemen (ASR) maken vaak gebruik van een op een Transformer gebaseerde akoestische encoder die embeddings genereert met een hoge framerate. Dit ontwerp is echter inefficiënt, vooral voor lange spraaksignalen vanwege de kwadratische berekening van zelf-attentie. Om dit aan te pakken, stellen we een nieuwe methode voor, Adjacent Token Merging (A-ToMe), die geleidelijk aangrenzende tokens combineert met hoge gelijkenisscores tussen hun sleutelwaarden. Op deze manier kan het totale aantal tijdstappen worden verminderd, en wordt de inferentie van zowel de encoder als het gezamenlijke netwerk versneld. Experimenten op LibriSpeech laten zien dat onze methode 57% van de tokens kan verminderen en de inferentiesnelheid op GPU met 70% kan verbeteren zonder noemenswaardig verlies van nauwkeurigheid. Daarnaast tonen we aan dat A-ToMe ook een effectieve oplossing is om tokens te verminderen in langdurige ASR, waarbij de ingevoerde spraak uit meerdere uitingen bestaat.
English
Recent end-to-end automatic speech recognition (ASR) systems often utilize a
Transformer-based acoustic encoder that generates embedding at a high frame
rate. However, this design is inefficient, particularly for long speech signals
due to the quadratic computation of self-attention. To address this, we propose
a new method, Adjacent Token Merging (A-ToMe), which gradually combines
adjacent tokens with high similarity scores between their key values. In this
way, the total time step could be reduced, and the inference of both the
encoder and joint network is accelerated. Experiments on LibriSpeech show that
our method can reduce 57% of tokens and improve the inference speed on GPU by
70% without any notable loss of accuracy. Additionally, we demonstrate that
A-ToMe is also an effective solution to reduce tokens in long-form ASR, where
the input speech consists of multiple utterances.