Effiziente Quantisierungsstrategien für latente Diffusionsmodelle
Efficient Quantization Strategies for Latent Diffusion Models
December 9, 2023
Autoren: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
cs.AI
Zusammenfassung
Latent Diffusion Models (LDMs) erfassen die dynamische Entwicklung latenter Variablen über die Zeit und verbinden Muster und Multimodalität in einem generativen System. Trotz der Kompetenz von LDMs in verschiedenen Anwendungen, wie der Text-zu-Bild-Generierung, die durch robuste Text-Encoder und ein variationsautoencoderbasiertes System ermöglicht wird, zwingt die dringende Notwendigkeit, große generative Modelle auf Edge-Geräten zu implementieren, zur Suche nach kompakteren, aber dennoch effektiven Alternativen. Post Training Quantization (PTQ), eine Methode zur Komprimierung der Betriebsgröße von Deep-Learning-Modellen, stößt bei der Anwendung auf LDMs aufgrund von zeitlichen und strukturellen Komplexitäten auf Herausforderungen. Diese Studie schlägt eine Quantisierungsstrategie vor, die LDMs effizient quantisiert und dabei das Signal-zu-Quantisierungs-Rausch-Verhältnis (SQNR) als zentrale Metrik für die Bewertung nutzt. Indem wir die Quantisierungsabweichung als relatives Rauschen behandeln und empfindliche Teile eines Modells identifizieren, entwickeln wir einen effizienten Quantisierungsansatz, der sowohl globale als auch lokale Strategien umfasst. Der globale Quantisierungsprozess reduziert das relative Quantisierungsrauschen, indem er eine höherpräzise Quantisierung auf empfindlichen Blöcken initiiert, während lokale Behandlungen spezifische Herausforderungen in quantisierungs- und zeitkritischen Modulen adressieren. Die Ergebnisse unserer Experimente zeigen, dass die Implementierung sowohl globaler als auch lokaler Behandlungen eine hocheffiziente und effektive Post Training Quantization (PTQ) von LDMs ermöglicht.
English
Latent Diffusion Models (LDMs) capture the dynamic evolution of latent
variables over time, blending patterns and multimodality in a generative
system. Despite the proficiency of LDM in various applications, such as
text-to-image generation, facilitated by robust text encoders and a variational
autoencoder, the critical need to deploy large generative models on edge
devices compels a search for more compact yet effective alternatives. Post
Training Quantization (PTQ), a method to compress the operational size of deep
learning models, encounters challenges when applied to LDM due to temporal and
structural complexities. This study proposes a quantization strategy that
efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR)
as a pivotal metric for evaluation. By treating the quantization discrepancy as
relative noise and identifying sensitive part(s) of a model, we propose an
efficient quantization approach encompassing both global and local strategies.
The global quantization process mitigates relative quantization noise by
initiating higher-precision quantization on sensitive blocks, while local
treatments address specific challenges in quantization-sensitive and
time-sensitive modules. The outcomes of our experiments reveal that the
implementation of both global and local treatments yields a highly efficient
and effective Post Training Quantization (PTQ) of LDMs.