Ускорение трансдукторов за счет объединения соседних токенов

Аннотация

Современные сквозные системы автоматического распознавания речи (ASR) часто используют акустический кодировщик на основе Transformer, который генерирует эмбеддинги с высокой частотой кадров. Однако такой подход неэффективен, особенно для длинных речевых сигналов, из-за квадратичной вычислительной сложности механизма self-attention. Для решения этой проблемы мы предлагаем новый метод — объединение смежных токенов (Adjacent Token Merging, A-ToMe), который постепенно объединяет соседние токены с высокими показателями сходства между их ключевыми значениями. Таким образом, общее количество временных шагов может быть сокращено, что ускоряет выполнение как кодировщика, так и совместной сети. Эксперименты на наборе данных LibriSpeech показывают, что наш метод позволяет сократить количество токенов на 57% и повысить скорость вывода на GPU на 70% без заметной потери точности. Кроме того, мы демонстрируем, что A-ToMe также является эффективным решением для сокращения токенов в задачах распознавания длинных речевых сигналов, где входная речь состоит из нескольких высказываний.

English

Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.

Ускорение трансдукторов за счет объединения соседних токенов

Accelerating Transducers through Adjacent Token Merging

Аннотация

Support