SparQ Attention: Inferenza Efficiente in Banda per Modelli Linguistici di Grande Dimensione

Abstract

I modelli linguistici generativi su larga scala (LLM) hanno aperto numerose nuove possibilità, ma a causa dei loro significativi requisiti computazionali, il loro uso ubiquitario rimane una sfida. Alcune delle applicazioni più utili richiedono l'elaborazione di un gran numero di campioni alla volta e l'utilizzo di contesti lunghi, entrambi fattori che aumentano notevolmente il carico di comunicazione della memoria dei modelli. Introduciamo SparQ Attention, una tecnica per aumentare la velocità di inferenza degli LLM riducendo i requisiti di banda della memoria all'interno dei blocchi di attenzione attraverso il recupero selettivo della cronologia memorizzata. La nostra tecnica proposta può essere applicata direttamente agli LLM disponibili in commercio durante l'inferenza, senza richiedere alcuna modifica alla configurazione di pre-addestramento o ulteriori fasi di fine-tuning. Dimostriamo come SparQ Attention possa ridurre i requisiti di banda della memoria per l'attenzione fino a otto volte senza alcuna perdita di precisione, valutando i modelli Llama 2 e Pythia su un'ampia gamma di task downstream.

English

Generative large language models (LLMs) have opened up numerous novel possibilities, but due to their significant computational requirements their ubiquitous use remains challenging. Some of the most useful applications require processing large numbers of samples at a time and using long contexts, both significantly increasing the memory communication load of the models. We introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by reducing the memory bandwidth requirements within the attention blocks through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show how SparQ Attention can decrease the attention memory bandwidth requirements up to eight times without any loss in accuracy by evaluating Llama 2 and Pythia models on a wide range of downstream tasks.

SparQ Attention: Inferenza Efficiente in Banda per Modelli Linguistici di Grande Dimensione

SparQ Attention: Bandwidth-Efficient LLM Inference

Abstract

Support