ChatPaper.aiChatPaper

Atenção ou Convolução: Codificadores de Transformers em Modelos de Linguagem de Áudio para Eficiência de Inferência

Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

November 5, 2023
Autores: Sungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel
cs.AI

Resumo

Neste artigo, demonstramos que um modelo de áudio pré-treinado auto-supervisionado simples pode alcançar eficiência de inferência comparável a modelos pré-treinados mais complexos com codificadores baseados em transformadores de fala. Esses transformadores de fala dependem da combinação de módulos convolucionais com módulos de auto-atenção, alcançando desempenho de ponta em reconhecimento automático de fala (ASR) com alta eficiência. Primeiro, mostramos que o uso desses transformadores de fala como codificador melhora significativamente a eficiência de modelos de áudio pré-treinados. No entanto, nosso estudo revela que é possível alcançar eficiência comparável utilizando apenas auto-atenção avançada. Demonstramos que essa abordagem mais simples é particularmente benéfica quando combinada com uma técnica de quantização de baixo bit dos pesos de uma rede neural para melhorar a eficiência. Nossa hipótese é que isso evita a propagação de erros entre diferentes módulos quantizados, em comparação com os transformadores de fala recentes que misturam convolução quantizada e módulos de auto-atenção quantizados.
English
In this paper, we show that a simple self-supervised pre-trained audio model can achieve comparable inference efficiency to more complicated pre-trained models with speech transformer encoders. These speech transformers rely on mixing convolutional modules with self-attention modules. They achieve state-of-the-art performance on ASR with top efficiency. We first show that employing these speech transformers as an encoder significantly improves the efficiency of pre-trained audio models as well. However, our study shows that we can achieve comparable efficiency with advanced self-attention solely. We demonstrate that this simpler approach is particularly beneficial with a low-bit weight quantization technique of a neural network to improve efficiency. We hypothesize that it prevents propagating the errors between different quantized modules compared to recent speech transformers mixing quantized convolution and the quantized self-attention modules.
PDF81February 8, 2026