LLM em um flash: Inferência Eficiente de Modelos de Linguagem de Grande Escala com Memória Limitada

Resumo

Modelos de linguagem de grande escala (LLMs) são centrais para o processamento moderno de linguagem natural, oferecendo desempenho excepcional em diversas tarefas. No entanto, suas exigências intensivas de computação e memória apresentam desafios, especialmente para dispositivos com capacidade limitada de DRAM. Este artigo aborda o desafio de executar LLMs de forma eficiente que excedem a capacidade de DRAM disponível, armazenando os parâmetros do modelo em memória flash, mas trazendo-os sob demanda para a DRAM. Nosso método envolve a construção de um modelo de custo de inferência que se harmoniza com o comportamento da memória flash, orientando-nos a otimizar em duas áreas críticas: reduzir o volume de dados transferidos da flash e ler dados em blocos maiores e mais contíguos. Dentro deste framework informado pela memória flash, introduzimos duas técnicas principais. Primeiro, o "windowing" reduz estrategicamente a transferência de dados ao reutilizar neurônios previamente ativados, e segundo, o "row-column bundling", adaptado às forças de acesso sequencial de dados da memória flash, aumenta o tamanho dos blocos de dados lidos da memória flash. Esses métodos coletivamente permitem a execução de modelos com até o dobro do tamanho da DRAM disponível, com um aumento de 4-5x e 20-25x na velocidade de inferência em comparação com abordagens de carregamento ingênuas em CPU e GPU, respectivamente. Nossa integração de consciência de esparsidade, carregamento adaptativo ao contexto e um design orientado ao hardware abre caminho para a inferência eficaz de LLMs em dispositivos com memória limitada.

English

Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their intensive computational and memory requirements present challenges, especially for devices with limited DRAM capacity. This paper tackles the challenge of efficiently running LLMs that exceed the available DRAM capacity by storing the model parameters on flash memory but bringing them on demand to DRAM. Our method involves constructing an inference cost model that harmonizes with the flash memory behavior, guiding us to optimize in two critical areas: reducing the volume of data transferred from flash and reading data in larger, more contiguous chunks. Within this flash memory-informed framework, we introduce two principal techniques. First, "windowing'" strategically reduces data transfer by reusing previously activated neurons, and second, "row-column bundling", tailored to the sequential data access strengths of flash memory, increases the size of data chunks read from flash memory. These methods collectively enable running models up to twice the size of the available DRAM, with a 4-5x and 20-25x increase in inference speed compared to naive loading approaches in CPU and GPU, respectively. Our integration of sparsity awareness, context-adaptive loading, and a hardware-oriented design paves the way for effective inference of LLMs on devices with limited memory.

LLM em um flash: Inferência Eficiente de Modelos de Linguagem de Grande Escala com Memória Limitada

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Resumo

Support