ChatPaper.aiChatPaper

Nauwkeurige compressie van tekst-naar-beeld diffusiemodellen via vector kwantisatie

Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

August 31, 2024
Auteurs: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
cs.AI

Samenvatting

Text-to-image diffusiemodellen zijn naar voren gekomen als een krachtig raamwerk voor het genereren van hoogwaardige afbeeldingen op basis van tekstuele prompts. Hun succes heeft de snelle ontwikkeling van productieklasse diffusiemodellen aangewakkerd, die voortdurend in omvang toenemen en al miljarden parameters bevatten. Als gevolg hiervan worden state-of-the-art text-to-image modellen in de praktijk steeds minder toegankelijk, vooral in omgevingen met beperkte middelen. Post-training kwantisatie (PTQ) pakt dit probleem aan door de vooraf getrainde modelgewichten te comprimeren naar representaties met een lager aantal bits. Recente kwantisatietechnieken voor diffusiemodellen zijn voornamelijk gebaseerd op uniforme scalaire kwantisatie, wat een behoorlijke prestaties biedt voor modellen die tot 4 bits zijn gecomprimeerd. Dit werk toont aan dat meer veelzijdige vector kwantisatie (VQ) hogere compressiepercentages kan bereiken voor grootschalige text-to-image diffusiemodellen. Specifiek passen we vector-gebaseerde PTQ-methoden toe op recente miljardenschalige text-to-image modellen (SDXL en SDXL-Turbo), en laten we zien dat diffusiemodellen met 2B+ parameters die tot ongeveer 3 bits zijn gecomprimeerd met VQ, een vergelijkbare beeldkwaliteit en tekstuele uitlijning vertonen als eerdere 4-bit compressietechnieken.
English
Text-to-image diffusion models have emerged as a powerful framework for high-quality image generation given textual prompts. Their success has driven the rapid development of production-grade diffusion models that consistently increase in size and already contain billions of parameters. As a result, state-of-the-art text-to-image models are becoming less accessible in practice, especially in resource-limited environments. Post-training quantization (PTQ) tackles this issue by compressing the pretrained model weights into lower-bit representations. Recent diffusion quantization techniques primarily rely on uniform scalar quantization, providing decent performance for the models compressed to 4 bits. This work demonstrates that more versatile vector quantization (VQ) may achieve higher compression rates for large-scale text-to-image diffusion models. Specifically, we tailor vector-based PTQ methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and show that the diffusion models of 2B+ parameters compressed to around 3 bits using VQ exhibit the similar image quality and textual alignment as previous 4-bit compression techniques.

Summary

AI-Generated Summary

PDF112November 16, 2024