SparQ Attention: Inferência Eficiente em Largura de Banda para LLMs
SparQ Attention: Bandwidth-Efficient LLM Inference
December 8, 2023
Autores: Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr
cs.AI
Resumo
Modelos generativos de linguagem de grande escala (LLMs) abriram inúmeras possibilidades inovadoras, mas, devido às suas significativas demandas computacionais, seu uso ubíquo ainda é desafiador. Algumas das aplicações mais úteis exigem o processamento de um grande número de amostras de uma só vez e o uso de contextos longos, ambos aumentando consideravelmente a carga de comunicação de memória dos modelos. Apresentamos o SparQ Attention, uma técnica para aumentar a taxa de transferência de inferência de LLMs, reduzindo os requisitos de largura de banda de memória dentro dos blocos de atenção por meio da busca seletiva do histórico armazenado em cache. Nossa técnica proposta pode ser aplicada diretamente a LLMs prontos para uso durante a inferência, sem a necessidade de qualquer modificação na configuração de pré-treinamento ou ajuste adicional. Demonstramos como o SparQ Attention pode diminuir os requisitos de largura de banda de memória de atenção em até oito vezes sem perda de precisão, avaliando modelos Llama 2 e Pythia em uma ampla gama de tarefas subsequentes.
English
Generative large language models (LLMs) have opened up numerous novel
possibilities, but due to their significant computational requirements their
ubiquitous use remains challenging. Some of the most useful applications
require processing large numbers of samples at a time and using long contexts,
both significantly increasing the memory communication load of the models. We
introduce SparQ Attention, a technique for increasing the inference throughput
of LLMs by reducing the memory bandwidth requirements within the attention
blocks through selective fetching of the cached history. Our proposed technique
can be applied directly to off-the-shelf LLMs during inference, without
requiring any modification to the pre-training setup or additional fine-tuning.
We show how SparQ Attention can decrease the attention memory bandwidth
requirements up to eight times without any loss in accuracy by evaluating Llama
2 and Pythia models on a wide range of downstream tasks.