DeepCache: Acelerando Modelos de Difusión sin Costo Adicional
DeepCache: Accelerating Diffusion Models for Free
December 1, 2023
Autores: Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Resumen
Los modelos de difusión han ganado recientemente una atención sin precedentes en el campo de la síntesis de imágenes debido a sus notables capacidades generativas. A pesar de su destreza, estos modelos suelen incurrir en costos computacionales sustanciales, atribuidos principalmente al proceso secuencial de eliminación de ruido y al tamaño engorroso del modelo. Los métodos tradicionales para comprimir modelos de difusión generalmente implican un extenso reentrenamiento, lo que presenta desafíos de costo y viabilidad. En este artículo, presentamos DeepCache, un paradigma novedoso que acelera los modelos de difusión desde la perspectiva de la arquitectura del modelo sin necesidad de entrenamiento adicional. DeepCache aprovecha la redundancia temporal inherente observada en los pasos secuenciales de eliminación de ruido de los modelos de difusión, almacenando y recuperando características entre etapas adyacentes de eliminación de ruido, reduciendo así los cálculos redundantes. Utilizando la propiedad de la U-Net, reutilizamos las características de alto nivel mientras actualizamos las de bajo nivel de manera muy económica. Esta estrategia innovadora permite un factor de aceleración de 2.3 veces para Stable Diffusion v1.5 con solo un descenso de 0.05 en el CLIP Score, y 4.1 veces para LDM-4-G con una ligera disminución de 0.22 en el FID en ImageNet. Nuestros experimentos también demuestran la superioridad de DeepCache sobre los métodos existentes de poda y destilación que requieren reentrenamiento, así como su compatibilidad con las técnicas de muestreo actuales. Además, encontramos que, con el mismo rendimiento, DeepCache logra resultados comparables o incluso ligeramente mejorados con DDIM o PLMS. El código está disponible en https://github.com/horseee/DeepCache.
English
Diffusion models have recently gained unprecedented attention in the field of
image synthesis due to their remarkable generative capabilities.
Notwithstanding their prowess, these models often incur substantial
computational costs, primarily attributed to the sequential denoising process
and cumbersome model size. Traditional methods for compressing diffusion models
typically involve extensive retraining, presenting cost and feasibility
challenges. In this paper, we introduce DeepCache, a novel training-free
paradigm that accelerates diffusion models from the perspective of model
architecture. DeepCache capitalizes on the inherent temporal redundancy
observed in the sequential denoising steps of diffusion models, which caches
and retrieves features across adjacent denoising stages, thereby curtailing
redundant computations. Utilizing the property of the U-Net, we reuse the
high-level features while updating the low-level features in a very cheap way.
This innovative strategy, in turn, enables a speedup factor of 2.3times for
Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1times
for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments
also demonstrate DeepCache's superiority over existing pruning and distillation
methods that necessitate retraining and its compatibility with current sampling
techniques. Furthermore, we find that under the same throughput, DeepCache
effectively achieves comparable or even marginally improved results with DDIM
or PLMS. The code is available at https://github.com/horseee/DeepCache