ChatPaper.aiChatPaper

LUT-LLM: Inferencia Eficiente de Modelos de Lenguaje Grandes con Cálculos Basados en Memoria en FPGAs

LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

November 9, 2025
Autores: Zifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong
cs.AI

Resumen

El rápido progreso de los grandes modelos de lenguaje (LLM) ha impulsado numerosas aplicaciones, aunque la inferencia eficiente en lote único sigue siendo vital para la inteligencia en el dispositivo. Si bien los FPGAs ofrecen un control de datos de grano fino y alta eficiencia energética, las recientes optimizaciones de las GPU han reducido su ventaja, especialmente bajo cómputo basado en operaciones aritméticas. Para superar esto, aprovechamos la abundante memoria en el chip de los FPGAs para cambiar la inferencia de LLMs de un cómputo aritmético a uno basado en memoria mediante búsquedas en tablas. Presentamos LUT-LLM, el primer acelerador para FPGA que permite la inferencia de LLMs de 1B+ mediante operaciones de memoria con cuantización vectorial. Nuestro análisis identifica la co-cuantización de activaciones y pesos como el esquema más efectivo, respaldado por (1) búsqueda paralela de centroides consciente del ancho de banda, (2) búsquedas eficientes en tablas 2D, y (3) un diseño híbrido espaciotemporal que minimiza el almacenamiento en caché de datos. Implementado en un AMD V80 FPGA para un modelo personalizado Qwen 3 de 1.7B, LUT-LLM logra una latencia 1.66 veces menor que la AMD MI210 y una eficiencia energética 1.72 veces mayor que la NVIDIA A100, escalando a modelos de 32B con una ganancia de eficiencia de 2.16x frente a la A100.
English
The rapid progress of large language models (LLMs) has advanced numerous applications, yet efficient single-batch inference remains vital for on-device intelligence. While FPGAs offer fine-grained data control and high energy efficiency, recent GPU optimizations have narrowed their advantage, especially under arithmetic-based computation. To overcome this, we leverage FPGAs' abundant on-chip memory to shift LLM inference from arithmetic- to memory-based computation through table lookups. We present LUT-LLM, the first FPGA accelerator enabling 1B+ LLM inference via vector-quantized memory operations. Our analysis identifies activation-weight co-quantization as the most effective scheme, supported by (1) bandwidth-aware parallel centroid search, (2) efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency gain over A100.
PDF72February 7, 2026