Estratégias Eficientes de Quantização para Modelos de Difusão Latente
Efficient Quantization Strategies for Latent Diffusion Models
December 9, 2023
Autores: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
cs.AI
Resumo
Modelos de Difusão Latente (LDMs) capturam a evolução dinâmica de variáveis latentes ao longo do tempo, combinando padrões e multimodalidade em um sistema generativo. Apesar da proficiência dos LDMs em diversas aplicações, como a geração de texto para imagem, facilitada por codificadores de texto robustos e um autoencoder variacional, a necessidade crítica de implantar modelos generativos grandes em dispositivos de borda impulsiona a busca por alternativas mais compactas, porém eficazes. A Quantização Pós-Treinamento (PTQ), um método para comprimir o tamanho operacional de modelos de aprendizado profundo, enfrenta desafios quando aplicada a LDMs devido a complexidades temporais e estruturais. Este estudo propõe uma estratégia de quantização que eficientemente quantiza LDMs, utilizando a Razão Sinal-Ruído de Quantização (SQNR) como uma métrica fundamental para avaliação. Ao tratar a discrepância de quantização como ruído relativo e identificar as partes sensíveis do modelo, propomos uma abordagem de quantização eficiente que abrange estratégias globais e locais. O processo de quantização global mitiga o ruído de quantização relativo ao iniciar a quantização de maior precisão em blocos sensíveis, enquanto os tratamentos locais abordam desafios específicos em módulos sensíveis à quantização e ao tempo. Os resultados de nossos experimentos revelam que a implementação de tratamentos globais e locais resulta em uma Quantização Pós-Treinamento (PTQ) altamente eficiente e eficaz para LDMs.
English
Latent Diffusion Models (LDMs) capture the dynamic evolution of latent
variables over time, blending patterns and multimodality in a generative
system. Despite the proficiency of LDM in various applications, such as
text-to-image generation, facilitated by robust text encoders and a variational
autoencoder, the critical need to deploy large generative models on edge
devices compels a search for more compact yet effective alternatives. Post
Training Quantization (PTQ), a method to compress the operational size of deep
learning models, encounters challenges when applied to LDM due to temporal and
structural complexities. This study proposes a quantization strategy that
efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR)
as a pivotal metric for evaluation. By treating the quantization discrepancy as
relative noise and identifying sensitive part(s) of a model, we propose an
efficient quantization approach encompassing both global and local strategies.
The global quantization process mitigates relative quantization noise by
initiating higher-precision quantization on sensitive blocks, while local
treatments address specific challenges in quantization-sensitive and
time-sensitive modules. The outcomes of our experiments reveal that the
implementation of both global and local treatments yields a highly efficient
and effective Post Training Quantization (PTQ) of LDMs.