LUT-LLM: Inferenza Efficiente di Grandi Modelli Linguistici con Calcoli Basati su Memoria su FPGA
LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs
November 9, 2025
Autori: Zifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong
cs.AI
Abstract
I rapidi progressi dei grandi modelli linguistici (LLM) hanno favorito numerose applicazioni, ma l'inferenza efficiente in batch singolo rimane vitale per l'intelligenza su dispositivo. Sebbene le FPGA offrano un controllo granulare dei dati e un'elevata efficienza energetica, le recenti ottimizzazioni delle GPU ne hanno ridotto il vantaggio, specialmente nelle computazioni basate su operazioni aritmetiche. Per superare questo limite, sfruttiamo l'abbondante memoria on-chip delle FPGA per spostare l'inferenza degli LLM da una computazione aritmetica a una basata su accessi in memoria tramite lookup table. Presentiamo LUT-LLM, il primo acceleratore su FPGA che abilita l'inferenza per LLM da 1B+ parametri mediante operazioni di memoria quantizzate vettorialmente. La nostra analisi identifica la co-quantizzazione attivazioni-pesi come lo schema più efficace, supportato da (1) una ricerca parallela dei centroidi consapevole della banda, (2) efficienti lookup table bidimensionali e (3) un design ibrido spaziale-temporale che minimizza la memorizzazione cache dei dati. Implementato su una FPGA AMD V80 per un modello personalizzato Qwen 3 da 1.7B, LUT-LLM raggiunge una latenza 1.66 volte inferiore rispetto ad AMD MI210 e un'efficienza energetica 1.72 volte superiore rispetto a NVIDIA A100, scalando fino a modelli da 32B con un guadagno di efficienza di 2.16x rispetto ad A100.
English
The rapid progress of large language models (LLMs) has advanced numerous
applications, yet efficient single-batch inference remains vital for on-device
intelligence. While FPGAs offer fine-grained data control and high energy
efficiency, recent GPU optimizations have narrowed their advantage, especially
under arithmetic-based computation. To overcome this, we leverage FPGAs'
abundant on-chip memory to shift LLM inference from arithmetic- to memory-based
computation through table lookups. We present LUT-LLM, the first FPGA
accelerator enabling 1B+ LLM inference via vector-quantized memory operations.
Our analysis identifies activation-weight co-quantization as the most effective
scheme, supported by (1) bandwidth-aware parallel centroid search, (2)
efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing
data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B
model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher
energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency
gain over A100.