NanoQuant: Эффективная квантизация больших языковых моделей с точностью менее 1 бита

Аннотация

Квантование только весов стало стандартным подходом для эффективного обслуживания больших языковых моделей (LLM). Однако существующие методы не позволяют эффективно сжимать модели до бинарных (1-битных) уровней, поскольку они либо требуют больших объемов данных и вычислительных ресурсов, либо приводят к дополнительным затратам памяти. В данной работе мы предлагаем NanoQuant — первый метод послетренировочного квантования (PTQ) для сжатия LLM как до бинарных, так и до суб-1-битных уровней. NanoQuant формулирует квантование как задачу бинарного низкорангового разложения и сжимает полноточные веса в низкоранговые бинарные матрицы и масштабирующие коэффициенты. В частности, метод использует эффективный метод множителей с чередующимися направлениями (ADMM) для точной инициализации латентных бинарных матриц и коэффициентов масштабирования, а затем донастраивает инициализированные параметры в процессе блочной и модельной реконструкции. В результате NanoQuant устанавливает новый парето-фронталь для послетренировочного квантования с низким потреблением памяти, достигая наилучшей точности даже при уровнях сжатия ниже 1 бита. NanoQuant делает развертывание крупномасштабных моделей на потребительском оборудовании осуществимым. Например, метод сжимает Llama2-70B в 25.8 раз всего за 13 часов на одном GPU H100, что позволяет запускать модель объемом 70B миллиардов параметров на потребительской видеокарте с 8 ГБ памяти.

English

Weight-only quantization has become a standard approach for efficiently serving large language models (LLMs). However, existing methods fail to efficiently compress models to binary (1-bit) levels, as they either require large amounts of data and compute or incur additional storage. In this work, we propose NanoQuant, the first post-training quantization (PTQ) method to compress LLMs to both binary and sub-1-bit levels. NanoQuant formulates quantization as a low-rank binary factorization problem, and compresses full-precision weights to low-rank binary matrices and scales. Specifically, it utilizes an efficient alternating direction method of multipliers (ADMM) method to precisely initialize latent binary matrices and scales, and then tune the initialized parameters through a block and model reconstruction process. Consequently, NanoQuant establishes a new Pareto frontier in low-memory post-training quantization, achieving state-of-the-art accuracy even at sub-1-bit compression rates. NanoQuant makes large-scale deployment feasible on consumer hardware. For example, it compresses Llama2-70B by 25.8times in just 13 hours on a single H100, enabling a 70B model to operate on a consumer 8 GB GPU.

NanoQuant: Эффективная квантизация больших языковых моделей с точностью менее 1 бита

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Аннотация

Support