ChatPaper.aiChatPaper

Точное сжатие моделей диффузии текста в изображение с помощью векторного квантования.

Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

August 31, 2024
Авторы: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
cs.AI

Аннотация

Модели диффузии текста в изображение стали мощной основой для генерации изображений высокого качества по текстовым подсказкам. Их успех способствовал быстрому развитию моделей диффузии производственного уровня, которые постоянно увеличиваются в размере и уже содержат миллиарды параметров. В результате современные модели текст в изображение становятся менее доступными на практике, особенно в ресурсоограниченных средах. Преодоление этой проблемы осуществляется сжатием весов предварительно обученной модели с помощью квантизации после обучения (PTQ). Недавние техники квантизации диффузии в основном опираются на равномерную скалярную квантизацию, обеспечивая приемлемую производительность для моделей, сжатых до 4 бит. В данной работе показано, что более универсальная векторная квантизация (VQ) может обеспечить более высокие уровни сжатия для масштабных моделей диффузии текста в изображение. Конкретно, мы настраиваем методы векторной PTQ для недавних миллиардных моделей текста в изображение (SDXL и SDXL-Turbo) и показываем, что модели диффузии с 2 миллиардами параметров, сжатые до примерно 3 бит с использованием VQ, демонстрируют сходное качество изображения и соответствие тексту, как и предыдущие методы сжатия до 4 бит.
English
Text-to-image diffusion models have emerged as a powerful framework for high-quality image generation given textual prompts. Their success has driven the rapid development of production-grade diffusion models that consistently increase in size and already contain billions of parameters. As a result, state-of-the-art text-to-image models are becoming less accessible in practice, especially in resource-limited environments. Post-training quantization (PTQ) tackles this issue by compressing the pretrained model weights into lower-bit representations. Recent diffusion quantization techniques primarily rely on uniform scalar quantization, providing decent performance for the models compressed to 4 bits. This work demonstrates that more versatile vector quantization (VQ) may achieve higher compression rates for large-scale text-to-image diffusion models. Specifically, we tailor vector-based PTQ methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and show that the diffusion models of 2B+ parameters compressed to around 3 bits using VQ exhibit the similar image quality and textual alignment as previous 4-bit compression techniques.

Summary

AI-Generated Summary

PDF112November 16, 2024