ChatPaper.aiChatPaper

Compression précise des modèles de diffusion texte-image via la quantification vectorielle

Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

August 31, 2024
Auteurs: Vage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk
cs.AI

Résumé

Les modèles de diffusion texte-image ont émergé comme un cadre puissant pour la génération d'images de haute qualité à partir de descriptions textuelles. Leur succès a conduit au développement rapide de modèles de diffusion de qualité de production qui augmentent constamment en taille et contiennent déjà des milliards de paramètres. En conséquence, les modèles texte-image de pointe deviennent moins accessibles en pratique, notamment dans des environnements à ressources limitées. La quantification post-entraînement (PTQ) aborde ce problème en comprimant les poids du modèle pré-entraîné en représentations à moindre nombre de bits. Les techniques récentes de quantification de la diffusion reposent principalement sur une quantification scalaire uniforme, offrant des performances correctes pour les modèles compressés à 4 bits. Ce travail démontre que la quantification vectorielle (VQ) plus polyvalente peut permettre d'atteindre des taux de compression plus élevés pour les modèles de diffusion texte-image à grande échelle. Plus précisément, nous adaptons des méthodes de PTQ basées sur des vecteurs aux récents modèles texte-image à l'échelle du milliard (SDXL et SDXL-Turbo), et montrons que les modèles de diffusion de 2 milliards de paramètres compressés à environ 3 bits en utilisant la VQ présentent une qualité d'image similaire et un alignement textuel similaire aux techniques de compression précédentes à 4 bits.
English
Text-to-image diffusion models have emerged as a powerful framework for high-quality image generation given textual prompts. Their success has driven the rapid development of production-grade diffusion models that consistently increase in size and already contain billions of parameters. As a result, state-of-the-art text-to-image models are becoming less accessible in practice, especially in resource-limited environments. Post-training quantization (PTQ) tackles this issue by compressing the pretrained model weights into lower-bit representations. Recent diffusion quantization techniques primarily rely on uniform scalar quantization, providing decent performance for the models compressed to 4 bits. This work demonstrates that more versatile vector quantization (VQ) may achieve higher compression rates for large-scale text-to-image diffusion models. Specifically, we tailor vector-based PTQ methods to recent billion-scale text-to-image models (SDXL and SDXL-Turbo), and show that the diffusion models of 2B+ parameters compressed to around 3 bits using VQ exhibit the similar image quality and textual alignment as previous 4-bit compression techniques.

Summary

AI-Generated Summary

PDF112November 16, 2024