ChatPaper.aiChatPaper

Эффективные стратегии квантования для латентных диффузионных моделей

Efficient Quantization Strategies for Latent Diffusion Models

December 9, 2023
Авторы: Yuewei Yang, Xiaoliang Dai, Jialiang Wang, Peizhao Zhang, Hongbo Zhang
cs.AI

Аннотация

Латентные диффузионные модели (LDMs) фиксируют динамическую эволюцию латентных переменных во времени, объединяя паттерны и мультимодальность в генеративной системе. Несмотря на эффективность LDMs в различных приложениях, таких как генерация изображений из текста, обеспечиваемую мощными текстовыми кодировщиками и вариационным автокодировщиком, острая необходимость развертывания крупных генеративных моделей на устройствах с ограниченными ресурсами стимулирует поиск более компактных, но эффективных альтернатив. Квантование после обучения (Post Training Quantization, PTQ), метод сжатия операционного размера моделей глубокого обучения, сталкивается с трудностями при применении к LDMs из-за временных и структурных сложностей. В данном исследовании предлагается стратегия квантования, которая эффективно квантует LDMs, используя отношение сигнал-квантовый шум (Signal-to-Quantization-Noise Ratio, SQNR) в качестве ключевого метрического показателя для оценки. Рассматривая расхождение при квантовании как относительный шум и выявляя чувствительные части модели, мы предлагаем эффективный подход к квантованию, включающий как глобальные, так и локальные стратегии. Глобальный процесс квантования снижает относительный квантовый шум, начиная с квантования более высокой точности на чувствительных блоках, в то время как локальные методы решают специфические проблемы в квантование-чувствительных и временно-чувствительных модулях. Результаты наших экспериментов показывают, что реализация как глобальных, так и локальных методов приводит к высокоэффективному и результативному квантованию после обучения (PTQ) LDMs.
English
Latent Diffusion Models (LDMs) capture the dynamic evolution of latent variables over time, blending patterns and multimodality in a generative system. Despite the proficiency of LDM in various applications, such as text-to-image generation, facilitated by robust text encoders and a variational autoencoder, the critical need to deploy large generative models on edge devices compels a search for more compact yet effective alternatives. Post Training Quantization (PTQ), a method to compress the operational size of deep learning models, encounters challenges when applied to LDM due to temporal and structural complexities. This study proposes a quantization strategy that efficiently quantize LDMs, leveraging Signal-to-Quantization-Noise Ratio (SQNR) as a pivotal metric for evaluation. By treating the quantization discrepancy as relative noise and identifying sensitive part(s) of a model, we propose an efficient quantization approach encompassing both global and local strategies. The global quantization process mitigates relative quantization noise by initiating higher-precision quantization on sensitive blocks, while local treatments address specific challenges in quantization-sensitive and time-sensitive modules. The outcomes of our experiments reveal that the implementation of both global and local treatments yields a highly efficient and effective Post Training Quantization (PTQ) of LDMs.
PDF120December 15, 2024