LUT-LLM: Inferência Eficiente de Modelos de Linguagem Grandes com Computações Baseadas em Memória em FPGAs

Resumo

O rápido avanço dos grandes modelos de linguagem (LLMs) tem impulsionado inúmeras aplicações, mas a inferência eficiente em lote único permanece vital para a inteligência em dispositivos locais. Embora os FPGAs ofereçam controle de dados de granularidade fina e alta eficiência energética, as otimizações recentes em GPUs reduziram sua vantagem, especialmente sob computação baseada em operações aritméticas. Para superar isso, aproveitamos a abundante memória on-chip dos FPGAs para deslocar a inferência de LLMs da computação aritmética para uma baseada em memória, por meio de consultas a tabelas (lookups). Apresentamos o LUT-LLM, o primeiro acelerador para FPGA que permite a inferência de LLMs com 1B+ de parâmetros através de operações de memória com quantização vetorial. Nossa análise identifica a co-quantização ativação-peso como o esquema mais eficaz, suportado por (1) busca paralela de centróides com consciência de largura de banda, (2) consultas eficientes a tabelas 2D e (3) um projeto híbrido espaço-temporal que minimiza o cache de dados. Implementado em um FPGA AMD V80 para um modelo personalizado Qwen 3 1.7B, o LUT-LLM atinge uma latência 1,66x menor que a AMD MI210 e uma eficiência energética 1,72x maior que a NVIDIA A100, escalando para modelos de 32B com um ganho de eficiência de 2,16x em relação ao A100.

English

The rapid progress of large language models (LLMs) has advanced numerous applications, yet efficient single-batch inference remains vital for on-device intelligence. While FPGAs offer fine-grained data control and high energy efficiency, recent GPU optimizations have narrowed their advantage, especially under arithmetic-based computation. To overcome this, we leverage FPGAs' abundant on-chip memory to shift LLM inference from arithmetic- to memory-based computation through table lookups. We present LUT-LLM, the first FPGA accelerator enabling 1B+ LLM inference via vector-quantized memory operations. Our analysis identifies activation-weight co-quantization as the most effective scheme, supported by (1) bandwidth-aware parallel centroid search, (2) efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency gain over A100.

LUT-LLM: Inferência Eficiente de Modelos de Linguagem Grandes com Computações Baseadas em Memória em FPGAs

LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

Resumo

Support