SparQ Attention : Inférence efficace en bande passante pour les grands modèles de langage
SparQ Attention: Bandwidth-Efficient LLM Inference
December 8, 2023
Auteurs: Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr
cs.AI
Résumé
Les grands modèles de langage génératifs (LLMs) ont ouvert de nombreuses possibilités inédites, mais en raison de leurs exigences computationnelles importantes, leur utilisation omniprésente reste un défi. Certaines des applications les plus utiles nécessitent de traiter un grand nombre d'échantillons simultanément et d'utiliser des contextes longs, ce qui augmente considérablement la charge de communication mémoire des modèles. Nous présentons SparQ Attention, une technique pour augmenter le débit d'inférence des LLMs en réduisant les besoins en bande passante mémoire au sein des blocs d'attention grâce à une récupération sélective de l'historique mis en cache. Notre technique proposée peut être appliquée directement aux LLMs disponibles sur le marché pendant l'inférence, sans nécessiter de modification de la configuration de pré-entraînement ni de réglage supplémentaire. Nous montrons comment SparQ Attention peut réduire les besoins en bande passante mémoire de l'attention jusqu'à huit fois sans perte de précision, en évaluant les modèles Llama 2 et Pythia sur un large éventail de tâches en aval.
English
Generative large language models (LLMs) have opened up numerous novel
possibilities, but due to their significant computational requirements their
ubiquitous use remains challenging. Some of the most useful applications
require processing large numbers of samples at a time and using long contexts,
both significantly increasing the memory communication load of the models. We
introduce SparQ Attention, a technique for increasing the inference throughput
of LLMs by reducing the memory bandwidth requirements within the attention
blocks through selective fetching of the cached history. Our proposed technique
can be applied directly to off-the-shelf LLMs during inference, without
requiring any modification to the pre-training setup or additional fine-tuning.
We show how SparQ Attention can decrease the attention memory bandwidth
requirements up to eight times without any loss in accuracy by evaluating Llama
2 and Pythia models on a wide range of downstream tasks.