LLM en un instante: Inferencia eficiente de modelos de lenguaje grandes con memoria limitada

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son fundamentales en el procesamiento moderno del lenguaje natural, ofreciendo un rendimiento excepcional en diversas tareas. Sin embargo, sus intensivos requisitos computacionales y de memoria presentan desafíos, especialmente para dispositivos con capacidad limitada de DRAM. Este artículo aborda el desafío de ejecutar eficientemente LLMs que superan la capacidad de DRAM disponible, almacenando los parámetros del modelo en memoria flash y llevándolos a DRAM bajo demanda. Nuestro método implica la construcción de un modelo de coste de inferencia que se armoniza con el comportamiento de la memoria flash, guiándonos para optimizar en dos áreas críticas: reducir el volumen de datos transferidos desde la flash y leer datos en fragmentos más grandes y contiguos. Dentro de este marco informado por la memoria flash, introducimos dos técnicas principales. Primero, la "ventana" reduce estratégicamente la transferencia de datos reutilizando neuronas previamente activadas, y segundo, el "agrupamiento fila-columna", adaptado a las fortalezas de acceso secuencial de la memoria flash, aumenta el tamaño de los fragmentos de datos leídos desde la memoria flash. Estos métodos permiten colectivamente ejecutar modelos de hasta el doble del tamaño de la DRAM disponible, con un aumento de 4-5x y 20-25x en la velocidad de inferencia en comparación con enfoques de carga ingenuos en CPU y GPU, respectivamente. Nuestra integración de conciencia de dispersión, carga adaptativa al contexto y un diseño orientado al hardware allana el camino para una inferencia efectiva de LLMs en dispositivos con memoria limitada.

English

Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their intensive computational and memory requirements present challenges, especially for devices with limited DRAM capacity. This paper tackles the challenge of efficiently running LLMs that exceed the available DRAM capacity by storing the model parameters on flash memory but bringing them on demand to DRAM. Our method involves constructing an inference cost model that harmonizes with the flash memory behavior, guiding us to optimize in two critical areas: reducing the volume of data transferred from flash and reading data in larger, more contiguous chunks. Within this flash memory-informed framework, we introduce two principal techniques. First, "windowing'" strategically reduces data transfer by reusing previously activated neurons, and second, "row-column bundling", tailored to the sequential data access strengths of flash memory, increases the size of data chunks read from flash memory. These methods collectively enable running models up to twice the size of the available DRAM, with a 4-5x and 20-25x increase in inference speed compared to naive loading approaches in CPU and GPU, respectively. Our integration of sparsity awareness, context-adaptive loading, and a hardware-oriented design paves the way for effective inference of LLMs on devices with limited memory.

LLM en un instante: Inferencia eficiente de modelos de lenguaje grandes con memoria limitada

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Resumen

Support