Attenzione o Convoluzione: Encoder Transformer nei Modelli Linguistici Audio per l'Efficienza nell'Inferenza

Abstract

In questo articolo, dimostriamo che un semplice modello audio pre-addestrato con auto-supervisione può raggiungere un'efficienza inferenziale comparabile a modelli pre-addestrati più complessi dotati di encoder basati su transformer per il parlato. Questi transformer per il parlato si basano sulla combinazione di moduli convoluzionali con moduli di self-attention, ottenendo prestazioni all'avanguardia nell'ASR con un'efficienza ottimale. Inizialmente mostriamo che l'utilizzo di questi transformer come encoder migliora significativamente anche l'efficienza dei modelli audio pre-addestrati. Tuttavia, il nostro studio rivela che è possibile ottenere un'efficienza comparabile utilizzando esclusivamente la self-attention avanzata. Dimostriamo che questo approccio più semplice è particolarmente vantaggioso quando combinato con una tecnica di quantizzazione a basso bit dei pesi di una rete neurale per migliorare l'efficienza. Ipotesizziamo che ciò prevenga la propagazione degli errori tra diversi moduli quantizzati, a differenza dei recenti transformer per il parlato che mescolano convoluzioni quantizzate e moduli di self-attention quantizzati.

English

In this paper, we show that a simple self-supervised pre-trained audio model can achieve comparable inference efficiency to more complicated pre-trained models with speech transformer encoders. These speech transformers rely on mixing convolutional modules with self-attention modules. They achieve state-of-the-art performance on ASR with top efficiency. We first show that employing these speech transformers as an encoder significantly improves the efficiency of pre-trained audio models as well. However, our study shows that we can achieve comparable efficiency with advanced self-attention solely. We demonstrate that this simpler approach is particularly beneficial with a low-bit weight quantization technique of a neural network to improve efficiency. We hypothesize that it prevents propagating the errors between different quantized modules compared to recent speech transformers mixing quantized convolution and the quantized self-attention modules.

Attenzione o Convoluzione: Encoder Transformer nei Modelli Linguistici Audio per l'Efficienza nell'Inferenza

Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Abstract

Support