ChatPaper.aiChatPaper

Estrategias Eficientes de Cuantización para Modelos de Difusión Latente

Efficient Quantization Strategies for Latent Diffusion Models

December 9, 2023
Autores: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
cs.AI

Resumen

Los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) capturan la evolución dinámica de variables latentes a lo largo del tiempo, combinando patrones y multimodalidad en un sistema generativo. A pesar de la eficacia de los LDMs en diversas aplicaciones, como la generación de imágenes a partir de texto, facilitada por codificadores de texto robustos y un autoencoder variacional, la necesidad crítica de implementar modelos generativos grandes en dispositivos de borde impulsa la búsqueda de alternativas más compactas pero igualmente efectivas. La Cuantización Post Entrenamiento (PTQ, por sus siglas en inglés), un método para comprimir el tamaño operativo de los modelos de aprendizaje profundo, enfrenta desafíos cuando se aplica a los LDMs debido a sus complejidades temporales y estructurales. Este estudio propone una estrategia de cuantización que cuantiza eficientemente los LDMs, utilizando la Relación Señal-Ruido de Cuantización (SQNR, por sus siglas en inglés) como métrica fundamental para la evaluación. Al tratar la discrepancia de cuantización como ruido relativo e identificar las partes sensibles del modelo, proponemos un enfoque de cuantización eficiente que abarca tanto estrategias globales como locales. El proceso de cuantización global mitiga el ruido de cuantización relativo al iniciar una cuantización de mayor precisión en los bloques sensibles, mientras que los tratamientos locales abordan desafíos específicos en módulos sensibles a la cuantización y al tiempo. Los resultados de nuestros experimentos revelan que la implementación de tratamientos tanto globales como locales produce una Cuantización Post Entrenamiento (PTQ) altamente eficiente y efectiva para los LDMs.
English
Latent Diffusion Models (LDMs) capture the dynamic evolution of latent variables over time, blending patterns and multimodality in a generative system. Despite the proficiency of LDM in various applications, such as text-to-image generation, facilitated by robust text encoders and a variational autoencoder, the critical need to deploy large generative models on edge devices compels a search for more compact yet effective alternatives. Post Training Quantization (PTQ), a method to compress the operational size of deep learning models, encounters challenges when applied to LDM due to temporal and structural complexities. This study proposes a quantization strategy that efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR) as a pivotal metric for evaluation. By treating the quantization discrepancy as relative noise and identifying sensitive part(s) of a model, we propose an efficient quantization approach encompassing both global and local strategies. The global quantization process mitigates relative quantization noise by initiating higher-precision quantization on sensitive blocks, while local treatments address specific challenges in quantization-sensitive and time-sensitive modules. The outcomes of our experiments reveal that the implementation of both global and local treatments yields a highly efficient and effective Post Training Quantization (PTQ) of LDMs.
PDF120December 15, 2024