LUT-LLM: Эффективный вывод больших языковых моделей с использованием вычислений на основе памяти на ПЛИС

Аннотация

Быстрое развитие больших языковых моделей (LLM) способствовало прогрессу многочисленных приложений, однако эффективный вывод в одиночном пакете остается критически важным для встроенного интеллекта. Хотя ПЛИС обеспечивают детализированный контроль над данными и высокую энергоэффективность, последние оптимизации GPU сократили их преимущество, особенно в условиях вычислений на основе арифметических операций. Чтобы преодолеть это ограничение, мы используем обширную внутреннюю память ПЛИС для перевода вывода LLM с арифметических на память-ориентированные вычисления посредством табличных поисков. Мы представляем LUT-LLM — первый ускоритель на ПЛИС, обеспечивающий вывод LLM объемом свыше 1 млрд параметров через векторно-квантованные операции с памятью. Наш анализ определяет совместное квантование активаций и весов как наиболее эффективную схему, поддерживаемую (1) поиском параллельных центроидов с учетом пропускной способности, (2) эффективными двумерными табличными поисками и (3) пространственно-временной гибридной архитектурой, минимизирующей кэширование данных. Реализованная на ПЛИС AMD V80 для кастомизированной модели Qwen 3 1.7B, система LUT-LLM демонстрирует в 1.66 раза меньшую задержку по сравнению с AMD MI210 и в 1.72 раза более высокую энергоэффективность по сравнению с NVIDIA A100, масштабируясь до моделей объемом 32 млрд параметров с приростом эффективности в 2.16 раза относительно A100.

English

The rapid progress of large language models (LLMs) has advanced numerous applications, yet efficient single-batch inference remains vital for on-device intelligence. While FPGAs offer fine-grained data control and high energy efficiency, recent GPU optimizations have narrowed their advantage, especially under arithmetic-based computation. To overcome this, we leverage FPGAs' abundant on-chip memory to shift LLM inference from arithmetic- to memory-based computation through table lookups. We present LUT-LLM, the first FPGA accelerator enabling 1B+ LLM inference via vector-quantized memory operations. Our analysis identifies activation-weight co-quantization as the most effective scheme, supported by (1) bandwidth-aware parallel centroid search, (2) efficient 2D table lookups, and (3) a spatial-temporal hybrid design minimizing data caching. Implemented on an AMD V80 FPGA for a customized Qwen 3 1.7B model, LUT-LLM achieves 1.66x lower latency than AMD MI210 and 1.72x higher energy efficiency than NVIDIA A100, scaling to 32B models with 2.16x efficiency gain over A100.

LUT-LLM: Эффективный вывод больших языковых моделей с использованием вычислений на основе памяти на ПЛИС

LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

Аннотация

Support