ChatPaper.aiChatPaper

Versnellen van Transducers via Samenvoegen van Aangrenzende Tokens

Accelerating Transducers through Adjacent Token Merging

June 28, 2023
Auteurs: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
cs.AI

Samenvatting

Recente end-to-end automatische spraakherkenningssystemen (ASR) maken vaak gebruik van een op een Transformer gebaseerde akoestische encoder die embeddings genereert met een hoge framerate. Dit ontwerp is echter inefficiënt, vooral voor lange spraaksignalen vanwege de kwadratische berekening van zelf-attentie. Om dit aan te pakken, stellen we een nieuwe methode voor, Adjacent Token Merging (A-ToMe), die geleidelijk aangrenzende tokens combineert met hoge gelijkenisscores tussen hun sleutelwaarden. Op deze manier kan het totale aantal tijdstappen worden verminderd, en wordt de inferentie van zowel de encoder als het gezamenlijke netwerk versneld. Experimenten op LibriSpeech laten zien dat onze methode 57% van de tokens kan verminderen en de inferentiesnelheid op GPU met 70% kan verbeteren zonder noemenswaardig verlies van nauwkeurigheid. Daarnaast tonen we aan dat A-ToMe ook een effectieve oplossing is om tokens te verminderen in langdurige ASR, waarbij de ingevoerde spraak uit meerdere uitingen bestaat.
English
Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.
PDF20December 15, 2024