ChatPaper.aiChatPaper

SVDQuant: Поглощение выбросов низкоранговыми компонентами для 4-битных диффузионных моделей

SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

November 7, 2024
Авторы: Muyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han
cs.AI

Аннотация

Модели диффузии доказали свою высокую эффективность в генерации качественных изображений. Однако с увеличением размера этих моделей они требуют значительно больше памяти и страдают от высокой задержки, что создает серьезные проблемы для развертывания. В данной работе мы стремимся ускорить модели диффузии путем квантования их весов и активаций до 4 бит. При такой агрессивной степени квантования как веса, так и активации становятся высокочувствительными, и традиционные методы послетренировочного квантования для больших языковых моделей, такие как сглаживание, становятся недостаточными. Чтобы преодолеть это ограничение, мы предлагаем SVDQuant — новую парадигму 4-битного квантования. В отличие от сглаживания, которое перераспределяет выбросы между весами и активациями, наш подход поглощает эти выбросы с помощью низкоранговой ветви. Сначала мы консолидируем выбросы, перемещая их из активаций в веса, а затем используем высокоточную низкоранговую ветвь для поглощения выбросов весов с помощью сингулярного разложения (SVD). Этот процесс облегчает квантование с обеих сторон. Однако наивное независимое выполнение низкоранговой ветви приводит к значительным накладным расходам из-за дополнительного перемещения данных активаций, что нивелирует ускорение от квантования. Для решения этой проблемы мы совместно разрабатываем механизм вывода Nunchaku, который объединяет ядра низкоранговой ветви с ядрами низкобитной ветви, чтобы исключить избыточный доступ к памяти. Он также может бесшовно поддерживать готовые низкоранговые адаптеры (LoRA) без необходимости повторного квантования. Многочисленные эксперименты на SDXL, PixArt-Sigma и FLUX.1 подтверждают эффективность SVDQuant в сохранении качества изображений. Мы сокращаем использование памяти для 12-миллиардных моделей FLUX.1 в 3.5 раза, достигая 3-кратного ускорения по сравнению с базовым уровнем с 4-битным квантованием только весов на ноутбучном GPU 4090 с 16 ГБ памяти, прокладывая путь для более интерактивных приложений на ПК. Наша библиотека квантования и механизм вывода имеют открытый исходный код.
English
Diffusion models have been proven highly effective at generating high-quality images. However, as these models grow larger, they require significantly more memory and suffer from higher latency, posing substantial challenges for deployment. In this work, we aim to accelerate diffusion models by quantizing their weights and activations to 4 bits. At such an aggressive level, both weights and activations are highly sensitive, where conventional post-training quantization methods for large language models like smoothing become insufficient. To overcome this limitation, we propose SVDQuant, a new 4-bit quantization paradigm. Different from smoothing which redistributes outliers between weights and activations, our approach absorbs these outliers using a low-rank branch. We first consolidate the outliers by shifting them from activations to weights, then employ a high-precision low-rank branch to take in the weight outliers with Singular Value Decomposition (SVD). This process eases the quantization on both sides. However, na\"{\i}vely running the low-rank branch independently incurs significant overhead due to extra data movement of activations, negating the quantization speedup. To address this, we co-design an inference engine Nunchaku that fuses the kernels of the low-rank branch into those of the low-bit branch to cut off redundant memory access. It can also seamlessly support off-the-shelf low-rank adapters (LoRAs) without the need for re-quantization. Extensive experiments on SDXL, PixArt-Sigma, and FLUX.1 validate the effectiveness of SVDQuant in preserving image quality. We reduce the memory usage for the 12B FLUX.1 models by 3.5times, achieving 3.0times speedup over the 4-bit weight-only quantized baseline on the 16GB laptop 4090 GPU, paving the way for more interactive applications on PCs. Our quantization library and inference engine are open-sourced.
PDF223December 4, 2025