LUT-LLM : Inférence efficace de grands modèles de langage avec des calculs basés sur la mémoire sur FPGA
LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs
November 9, 2025
papers.authors: Zifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong
cs.AI
papers.abstract
Les progrès rapides des grands modèles de langage (LLM) ont fait avancer de nombreuses applications, mais l'inférence efficace par lot unique reste vitale pour l'intelligence embarquée. Bien que les FPGA offrent un contrôle granulaire des données et une haute efficacité énergétique, les optimisations récentes des GPU ont réduit leur avantage, particulièrement dans les calculs arithmétiques. Pour surmonter cela, nous exploitons la mémoire embarquée abondante des FPGA pour transformer l'inférence des LLM de calculs arithmétiques en calculs basés sur la mémoire via des consultations de table. Nous présentons LUT-LLM, le premier accélérateur FPGA permettant l'inférence de LLM de 1 milliard+ de paramètres via des opérations mémoire vectorielles quantifiées. Notre analyse identifie la co-quantification activation-poids comme le schéma le plus efficace, soutenu par (1) une recherche de centroïdes parallèle sensible à la bande passante, (2) des consultations de table 2D efficaces, et (3) une conception hybride spatio-temporelle minimisant la mise en cache des données. Implémenté sur un FPGA AMD V80 pour un modèle personnalisé Qwen 3 1.7B, LUT-LLM atteint une latence 1.66 fois inférieure à l'AMD MI210 et une efficacité énergétique 1.72 fois supérieure à la NVIDIA A100, avec une extensibilité aux modèles 32B offrant un gain d'efficacité de 2.16x par rapport à l'A100.
English
The rapid progress of large language models (LLMs) has advanced numerous
applications, yet efficient single-batch inference remains vital for on-device
intelligence. While FPGAs offer fine-grained data control and high energy
efficiency, recent GPU optimizations have narrowed their advantage, especially
under arithmetic-based computation. To overcome this, we leverage FPGAs'
abundant on-chip memory to shift LLM inference from arithmetic- to memory-based
computation through table lookups. We present LUT-LLM, the first FPGA
accelerator enabling 1B+ LLM inference via vector-quantized memory operations.
Our analysis identifies activation-weight co-quantization as the most effective
scheme, supported by (1) bandwidth-aware parallel centroid search, (2)
efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing
data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B
model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher
energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency
gain over A100.