Compresión precisa de modelos de difusión de texto a imagen mediante cuantización de vectores.
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization
August 31, 2024
Autores: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
cs.AI
Resumen
Los modelos de difusión texto-imagen han surgido como un marco poderoso para la generación de imágenes de alta calidad a partir de indicaciones textuales. Su éxito ha impulsado el rápido desarrollo de modelos de difusión a nivel de producción que aumentan constantemente en tamaño y ya contienen miles de millones de parámetros. Como resultado, los modelos de vanguardia de texto a imagen están volviéndose menos accesibles en la práctica, especialmente en entornos con recursos limitados. La cuantificación post-entrenamiento (PTQ) aborda este problema comprimiendo los pesos del modelo preentrenado en representaciones de menor cantidad de bits. Las técnicas recientes de cuantificación de difusión se basan principalmente en la cuantificación escalar uniforme, ofreciendo un rendimiento decente para los modelos comprimidos a 4 bits. Este trabajo demuestra que la cuantificación vectorial (VQ) más versátil puede lograr tasas de compresión más altas para modelos de difusión texto-imagen a gran escala. Específicamente, adaptamos métodos de PTQ basados en vectores a los recientes modelos de texto-imagen a escala de miles de millones (SDXL y SDXL-Turbo), y mostramos que los modelos de difusión de 2B+ parámetros comprimidos a alrededor de 3 bits utilizando VQ exhiben una calidad de imagen y alineación textual similares a las técnicas de compresión de 4 bits previas.
English
Text-to-image diffusion models have emerged as a powerful framework for
high-quality image generation given textual prompts. Their success has driven
the rapid development of production-grade diffusion models that consistently
increase in size and already contain billions of parameters. As a result,
state-of-the-art text-to-image models are becoming less accessible in practice,
especially in resource-limited environments. Post-training quantization (PTQ)
tackles this issue by compressing the pretrained model weights into lower-bit
representations. Recent diffusion quantization techniques primarily rely on
uniform scalar quantization, providing decent performance for the models
compressed to 4 bits. This work demonstrates that more versatile vector
quantization (VQ) may achieve higher compression rates for large-scale
text-to-image diffusion models. Specifically, we tailor vector-based PTQ
methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and
show that the diffusion models of 2B+ parameters compressed to around 3 bits
using VQ exhibit the similar image quality and textual alignment as previous
4-bit compression techniques.Summary
AI-Generated Summary