FP6-LLM: Эффективное обслуживание больших языковых моделей через совместное проектирование алгоритмов и систем с использованием FP6

Аннотация

Шестибитная квантизация (FP6) позволяет эффективно уменьшить размер больших языковых моделей (LLM) и сохранить качество модели в различных приложениях. Однако существующие системы не поддерживают Tensor Core для квантизации FP6 и сталкиваются с трудностями в достижении практического улучшения производительности при выводе LLM. Поддержка квантизации FP6 на GPU является сложной задачей из-за (1) недружелюбного доступа к памяти для весов модели с нерегулярной битовой шириной и (2) высоких накладных расходов на де-квантизацию весов во время выполнения. Для решения этих проблем мы предлагаем TC-FPx — первую полностековую схему проектирования GPU-ядер с унифицированной поддержкой Tensor Core для весов с плавающей точкой при различных битовых ширинах квантизации. Мы интегрируем ядро TC-FPx в существующую систему вывода, предоставляя новую сквозную поддержку (называемую FP6-LLM) для вывода квантизированных LLM, где достигается лучший баланс между стоимостью вывода и качеством модели. Эксперименты показывают, что FP6-LLM позволяет выполнять вывод модели LLaMA-70b с использованием всего одного GPU, достигая увеличения нормализованной пропускной способности вывода в 1,69–2,65 раза по сравнению с базовым уровнем FP16. Исходный код будет вскоре опубликован.

English

Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code will be publicly available soon.

FP6-LLM: Эффективное обслуживание больших языковых моделей через совместное проектирование алгоритмов и систем с использованием FP6

FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design

Аннотация

Support