ChatPaper.aiChatPaper

DeepCache : Accélération des modèles de diffusion sans coût supplémentaire

DeepCache: Accelerating Diffusion Models for Free

December 1, 2023
Auteurs: Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI

Résumé

Les modèles de diffusion ont récemment suscité une attention sans précédent dans le domaine de la synthèse d'images grâce à leurs remarquables capacités génératives. Malgré leur puissance, ces modèles engendrent souvent des coûts computationnels substantiels, principalement attribuables au processus séquentiel de débruitage et à la taille encombrante des modèles. Les méthodes traditionnelles de compression des modèles de diffusion impliquent généralement un réentraînement extensif, posant des défis en termes de coût et de faisabilité. Dans cet article, nous présentons DeepCache, un nouveau paradigme sans entraînement qui accélère les modèles de diffusion en intervenant sur l'architecture du modèle. DeepCache tire parti de la redondance temporelle inhérente observée dans les étapes séquentielles de débruitage des modèles de diffusion, en mettant en cache et en récupérant les caractéristiques entre les étapes adjacentes de débruitage, réduisant ainsi les calculs redondants. En exploitant la propriété de l'U-Net, nous réutilisons les caractéristiques de haut niveau tout en mettant à jour les caractéristiques de bas niveau de manière très économique. Cette stratégie innovante permet d'obtenir un facteur d'accélération de 2,3 fois pour Stable Diffusion v1.5 avec seulement une baisse de 0,05 du score CLIP, et de 4,1 fois pour LDM-4-G avec une légère diminution de 0,22 du FID sur ImageNet. Nos expériences démontrent également la supériorité de DeepCache par rapport aux méthodes existantes d'élagage et de distillation qui nécessitent un réentraînement, ainsi que sa compatibilité avec les techniques d'échantillonnage actuelles. De plus, nous constatons que pour un même débit, DeepCache permet d'obtenir des résultats comparables, voire légèrement améliorés, avec DDIM ou PLMS. Le code est disponible à l'adresse https://github.com/horseee/DeepCache.
English
Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often incur substantial computational costs, primarily attributed to the sequential denoising process and cumbersome model size. Traditional methods for compressing diffusion models typically involve extensive retraining, presenting cost and feasibility challenges. In this paper, we introduce DeepCache, a novel training-free paradigm that accelerates diffusion models from the perspective of model architecture. DeepCache capitalizes on the inherent temporal redundancy observed in the sequential denoising steps of diffusion models, which caches and retrieves features across adjacent denoising stages, thereby curtailing redundant computations. Utilizing the property of the U-Net, we reuse the high-level features while updating the low-level features in a very cheap way. This innovative strategy, in turn, enables a speedup factor of 2.3times for Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1times for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments also demonstrate DeepCache's superiority over existing pruning and distillation methods that necessitate retraining and its compatibility with current sampling techniques. Furthermore, we find that under the same throughput, DeepCache effectively achieves comparable or even marginally improved results with DDIM or PLMS. The code is available at https://github.com/horseee/DeepCache
PDF241December 15, 2024