ChatPaper.aiChatPaper

Compressão precisa de modelos de difusão texto-imagem via Quantização de Vetores

Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

August 31, 2024
Autores: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
cs.AI

Resumo

Os modelos de difusão texto-imagem surgiram como um framework poderoso para geração de imagens de alta qualidade a partir de sugestões textuais. O sucesso desses modelos impulsionou o rápido desenvolvimento de modelos de difusão em produção que continuam a aumentar de tamanho e já contêm bilhões de parâmetros. Como resultado, os modelos de ponta de texto-imagem estão se tornando menos acessíveis na prática, especialmente em ambientes com recursos limitados. A quantização pós-treinamento (QPT) aborda esse problema comprimindo os pesos do modelo pré-treinado em representações de menor quantidade de bits. Técnicas recentes de quantização de difusão geralmente dependem da quantização escalar uniforme, proporcionando um desempenho decente para modelos comprimidos em 4 bits. Este trabalho demonstra que a quantização vetorial (QV) mais versátil pode alcançar taxas de compressão mais altas para modelos de difusão texto-imagem em grande escala. Especificamente, adaptamos métodos de QPT baseados em vetores para os modelos texto-imagem em escala de bilhões recentes (SDXL e SDXL-Turbo), e mostramos que os modelos de difusão com 2 bilhões de parâmetros comprimidos para cerca de 3 bits usando QV exibem qualidade de imagem e alinhamento textual semelhantes às técnicas anteriores de compressão em 4 bits.
English
Text-to-image diffusion models have emerged as a powerful framework for high-quality image generation given textual prompts. Their success has driven the rapid development of production-grade diffusion models that consistently increase in size and already contain billions of parameters. As a result, state-of-the-art text-to-image models are becoming less accessible in practice, especially in resource-limited environments. Post-training quantization (PTQ) tackles this issue by compressing the pretrained model weights into lower-bit representations. Recent diffusion quantization techniques primarily rely on uniform scalar quantization, providing decent performance for the models compressed to 4 bits. This work demonstrates that more versatile vector quantization (VQ) may achieve higher compression rates for large-scale text-to-image diffusion models. Specifically, we tailor vector-based PTQ methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and show that the diffusion models of 2B+ parameters compressed to around 3 bits using VQ exhibit the similar image quality and textual alignment as previous 4-bit compression techniques.

Summary

AI-Generated Summary

PDF112November 16, 2024