Strategie efficienti di quantizzazione per modelli di diffusione latente
Efficient Quantization Strategies for Latent Diffusion Models
December 9, 2023
Autori: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
cs.AI
Abstract
I Modelli di Diffusione Latente (LDMs) catturano l'evoluzione dinamica delle variabili latenti nel tempo, integrando pattern e multimodalità in un sistema generativo. Nonostante la competenza degli LDM in varie applicazioni, come la generazione di immagini da testo, facilitata da robusti encoder testuali e un autoencoder variazionale, la necessità critica di implementare grandi modelli generativi su dispositivi edge spinge alla ricerca di alternative più compatte ma altrettanto efficaci. La Quantizzazione Post-Addestramento (PTQ), un metodo per comprimere le dimensioni operative dei modelli di deep learning, incontra sfide quando applicata agli LDM a causa delle complessità temporali e strutturali. Questo studio propone una strategia di quantizzazione che quantizza efficientemente gli LDM, sfruttando il Rapporto Segnale-Rumore di Quantizzazione (SQNR) come metrica fondamentale per la valutazione. Trattando la discrepanza di quantizzazione come rumore relativo e identificando le parti sensibili del modello, proponiamo un approccio di quantizzazione efficiente che comprende sia strategie globali che locali. Il processo di quantizzazione globale mitiga il rumore di quantizzazione relativo avviando una quantizzazione a precisione più elevata sui blocchi sensibili, mentre i trattamenti locali affrontano specifiche sfide nei moduli sensibili alla quantizzazione e al tempo. I risultati dei nostri esperimenti rivelano che l'implementazione sia dei trattamenti globali che locali produce una Quantizzazione Post-Addestramento (PTQ) altamente efficiente ed efficace degli LDM.
English
Latent Diffusion Models (LDMs) capture the dynamic evolution of latent
variables over time, blending patterns and multimodality in a generative
system. Despite the proficiency of LDM in various applications, such as
text-to-image generation, facilitated by robust text encoders and a variational
autoencoder, the critical need to deploy large generative models on edge
devices compels a search for more compact yet effective alternatives. Post
Training Quantization (PTQ), a method to compress the operational size of deep
learning models, encounters challenges when applied to LDM due to temporal and
structural complexities. This study proposes a quantization strategy that
efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR)
as a pivotal metric for evaluation. By treating the quantization discrepancy as
relative noise and identifying sensitive part(s) of a model, we propose an
efficient quantization approach encompassing both global and local strategies.
The global quantization process mitigates relative quantization noise by
initiating higher-precision quantization on sensitive blocks, while local
treatments address specific challenges in quantization-sensitive and
time-sensitive modules. The outcomes of our experiments reveal that the
implementation of both global and local treatments yields a highly efficient
and effective Post Training Quantization (PTQ) of LDMs.