LUT-LLM: Efficiënte Inferentie van Grote Taalmodellen met Geheugengebaseerde Berekeningen op FPGA's
LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs
November 9, 2025
Auteurs: Zifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong
cs.AI
Samenvatting
De snelle vooruitgang van grote taalmodellen (LLM's) heeft talloze toepassingen mogelijk gemaakt, maar efficiënte inferentie in enkele batches blijft van cruciaal belang voor on-device intelligentie. Hoewel FPGA's fijnmazige datacontrole en hoge energie-efficiëntie bieden, hebben recente GPU-optimalisaties hun voordeel verkleind, vooral bij rekenkundige berekeningen. Om dit te overwinnen, benutten we de overvloedige on-chip geheugens van FPGA's om LLM-inferentie te verschuiven van rekenkundige naar geheugengestuurde berekening via tabelzoekacties. Wij presenteren LUT-LLM, de eerste FPGA-versneller die inferentie voor LLM's van 1B+ parameters mogelijk maakt via vector-gekwantiseerde geheugenoperaties. Onze analyse identificeert co-kwantisatie van activaties en gewichten als het meest effectieve schema, ondersteund door (1) bandbreedtebewuste parallelle centroid-zoekacties, (2) efficiënte 2D-tabelzoekacties en (3) een ruimtelijk-tijdelijk hybride ontwerp dat datacaching minimaliseert. Geïmplementeerd op een AMD V80 FPGA voor een aangepast Qwen 3 1.7B-model behaalt LUT-LLM 1,66x lagere latentie dan de AMD MI210 en 1,72x hogere energie-efficiëntie dan de NVIDIA A100, met schaalbaarheid naar 32B-modellen en een efficiëntiewinst van 2,16x ten opzichte van de A100.
English
The rapid progress of large language models (LLMs) has advanced numerous
applications, yet efficient single-batch inference remains vital for on-device
intelligence. While FPGAs offer fine-grained data control and high energy
efficiency, recent GPU optimizations have narrowed their advantage, especially
under arithmetic-based computation. To overcome this, we leverage FPGAs'
abundant on-chip memory to shift LLM inference from arithmetic- to memory-based
computation through table lookups. We present LUT-LLM, the first FPGA
accelerator enabling 1B+ LLM inference via vector-quantized memory operations.
Our analysis identifies activation-weight co-quantization as the most effective
scheme, supported by (1) bandwidth-aware parallel centroid search, (2)
efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing
data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B
model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher
energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency
gain over A100.