ChatPaper.aiChatPaper

SparQ Attention: Inferencia Eficiente en Ancho de Banda para Modelos de Lenguaje de Gran Escala

SparQ Attention: Bandwidth-Efficient LLM Inference

December 8, 2023
Autores: Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley, Charlie Blake, Carlo Luschi, Douglas Orr
cs.AI

Resumen

Los modelos generativos de lenguaje a gran escala (LLMs, por sus siglas en inglés) han abierto numerosas posibilidades novedosas, pero debido a sus significativos requisitos computacionales, su uso generalizado sigue siendo un desafío. Algunas de las aplicaciones más útiles requieren procesar grandes cantidades de muestras simultáneamente y utilizar contextos extensos, lo que aumenta considerablemente la carga de comunicación de memoria de los modelos. Presentamos SparQ Attention, una técnica para aumentar el rendimiento de inferencia de los LLMs al reducir los requisitos de ancho de banda de memoria dentro de los bloques de atención mediante la recuperación selectiva del historial almacenado en caché. Nuestra técnica propuesta puede aplicarse directamente a LLMs estándar durante la inferencia, sin necesidad de modificar la configuración de preentrenamiento ni realizar ajustes adicionales. Demostramos cómo SparQ Attention puede disminuir los requisitos de ancho de banda de memoria en la atención hasta ocho veces sin pérdida de precisión, evaluando los modelos Llama 2 y Pythia en una amplia gama de tareas posteriores.
English
Generative large language models (LLMs) have opened up numerous novel possibilities, but due to their significant computational requirements their ubiquitous use remains challenging. Some of the most useful applications require processing large numbers of samples at a time and using long contexts, both significantly increasing the memory communication load of the models. We introduce SparQ Attention, a technique for increasing the inference throughput of LLMs by reducing the memory bandwidth requirements within the attention blocks through selective fetching of the cached history. Our proposed technique can be applied directly to off-the-shelf LLMs during inference, without requiring any modification to the pre-training setup or additional fine-tuning. We show how SparQ Attention can decrease the attention memory bandwidth requirements up to eight times without any loss in accuracy by evaluating Llama 2 and Pythia models on a wide range of downstream tasks.
PDF401December 15, 2024