Stratégies de quantification efficaces pour les modèles de diffusion latente
Efficient Quantization Strategies for Latent Diffusion Models
December 9, 2023
papers.authors: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
cs.AI
papers.abstract
Les modèles de diffusion latente (Latent Diffusion Models, LDMs) capturent l'évolution dynamique des variables latentes dans le temps, en intégrant des motifs et une multimodalité dans un système génératif. Malgré la compétence des LDMs dans diverses applications, telles que la génération d'images à partir de texte, facilitée par des encodeurs de texte robustes et un autoencodeur variationnel, la nécessité cruciale de déployer de grands modèles génératifs sur des dispositifs périphériques pousse à rechercher des alternatives plus compactes mais tout aussi efficaces. La quantification post-entraînement (Post Training Quantization, PTQ), une méthode pour compresser la taille opérationnelle des modèles d'apprentissage profond, rencontre des difficultés lorsqu'elle est appliquée aux LDMs en raison de leurs complexités temporelles et structurelles. Cette étude propose une stratégie de quantification qui quantifie efficacement les LDMs, en utilisant le rapport signal-sur-bruit de quantification (Signal-to-Quantization-Noise Ratio, SQNR) comme métrique clé d'évaluation. En traitant l'écart de quantification comme un bruit relatif et en identifiant les parties sensibles du modèle, nous proposons une approche de quantification efficace englobant à la fois des stratégies globales et locales. Le processus de quantification globale atténue le bruit de quantification relatif en initiant une quantification de plus haute précision sur les blocs sensibles, tandis que les traitements locaux s'attaquent aux défis spécifiques des modules sensibles à la quantification et au temps. Les résultats de nos expériences révèlent que la mise en œuvre de traitements à la fois globaux et locaux permet une quantification post-entraînement (PTQ) des LDMs hautement efficace et performante.
English
Latent Diffusion Models (LDMs) capture the dynamic evolution of latent
variables over time, blending patterns and multimodality in a generative
system. Despite the proficiency of LDM in various applications, such as
text-to-image generation, facilitated by robust text encoders and a variational
autoencoder, the critical need to deploy large generative models on edge
devices compels a search for more compact yet effective alternatives. Post
Training Quantization (PTQ), a method to compress the operational size of deep
learning models, encounters challenges when applied to LDM due to temporal and
structural complexities. This study proposes a quantization strategy that
efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR)
as a pivotal metric for evaluation. By treating the quantization discrepancy as
relative noise and identifying sensitive part(s) of a model, we propose an
efficient quantization approach encompassing both global and local strategies.
The global quantization process mitigates relative quantization noise by
initiating higher-precision quantization on sensitive blocks, while local
treatments address specific challenges in quantization-sensitive and
time-sensitive modules. The outcomes of our experiments reveal that the
implementation of both global and local treatments yields a highly efficient
and effective Post Training Quantization (PTQ) of LDMs.