Ускорение трансдукторов за счет объединения соседних токенов
Accelerating Transducers through Adjacent Token Merging
June 28, 2023
Авторы: Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
cs.AI
Аннотация
Современные сквозные системы автоматического распознавания речи (ASR) часто используют акустический кодировщик на основе Transformer, который генерирует эмбеддинги с высокой частотой кадров. Однако такой подход неэффективен, особенно для длинных речевых сигналов, из-за квадратичной вычислительной сложности механизма self-attention. Для решения этой проблемы мы предлагаем новый метод — объединение смежных токенов (Adjacent Token Merging, A-ToMe), который постепенно объединяет соседние токены с высокими показателями сходства между их ключевыми значениями. Таким образом, общее количество временных шагов может быть сокращено, что ускоряет выполнение как кодировщика, так и совместной сети. Эксперименты на наборе данных LibriSpeech показывают, что наш метод позволяет сократить количество токенов на 57% и повысить скорость вывода на GPU на 70% без заметной потери точности. Кроме того, мы демонстрируем, что A-ToMe также является эффективным решением для сокращения токенов в задачах распознавания длинных речевых сигналов, где входная речь состоит из нескольких высказываний.
English
Recent end-to-end automatic speech recognition (ASR) systems often utilize a
Transformer-based acoustic encoder that generates embedding at a high frame
rate. However, this design is inefficient, particularly for long speech signals
due to the quadratic computation of self-attention. To address this, we propose
a new method, Adjacent Token Merging (A-ToMe), which gradually combines
adjacent tokens with high similarity scores between their key values. In this
way, the total time step could be reduced, and the inference of both the
encoder and joint network is accelerated. Experiments on LibriSpeech show that
our method can reduce 57% of tokens and improve the inference speed on GPU by
70% without any notable loss of accuracy. Additionally, we demonstrate that
A-ToMe is also an effective solution to reduce tokens in long-form ASR, where
the input speech consists of multiple utterances.