Compressione accurata dei modelli di diffusione testo-immagine tramite quantizzazione vettoriale
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization
August 31, 2024
Autori: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
cs.AI
Abstract
I modelli di diffusione testo-immagine sono emersi come un framework potente per la generazione di immagini di alta qualità date indicazioni testuali. Il loro successo ha guidato lo sviluppo rapido di modelli di diffusione di grado di produzione che aumentano costantemente di dimensioni e contengono già miliardi di parametri. Di conseguenza, i modelli di testo-immagine all'avanguardia stanno diventando meno accessibili nella pratica, specialmente in ambienti con risorse limitate. La quantizzazione post-addestramento (PTQ) affronta questo problema comprimendo i pesi del modello preaddestrato in rappresentazioni a bit inferiori. Le recenti tecniche di quantizzazione della diffusione si basano principalmente sulla quantizzazione scalare uniforme, offrendo prestazioni decenti per i modelli compressi a 4 bit. Questo lavoro dimostra che la quantizzazione vettoriale più versatile (VQ) potrebbe ottenere tassi di compressione più elevati per i modelli di diffusione testo-immagine su larga scala. In particolare, adattiamo i metodi PTQ basati su vettori ai recenti modelli testo-immagine su scala miliardaria (SDXL e SDXL-Turbo), e mostriamo che i modelli di diffusione con 2 miliardi di parametri compressi a circa 3 bit utilizzando VQ presentano una qualità dell'immagine e un allineamento testuale simili alle tecniche di compressione precedenti a 4 bit.
English
Text-to-image diffusion models have emerged as a powerful framework for
high-quality image generation given textual prompts. Their success has driven
the rapid development of production-grade diffusion models that consistently
increase in size and already contain billions of parameters. As a result,
state-of-the-art text-to-image models are becoming less accessible in practice,
especially in resource-limited environments. Post-training quantization (PTQ)
tackles this issue by compressing the pretrained model weights into lower-bit
representations. Recent diffusion quantization techniques primarily rely on
uniform scalar quantization, providing decent performance for the models
compressed to 4 bits. This work demonstrates that more versatile vector
quantization (VQ) may achieve higher compression rates for large-scale
text-to-image diffusion models. Specifically, we tailor vector-based PTQ
methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and
show that the diffusion models of 2B+ parameters compressed to around 3 bits
using VQ exhibit the similar image quality and textual alignment as previous
4-bit compression techniques.Summary
AI-Generated Summary