DeepCache: Accelerare i Modelli di Diffusione Senza Costi Aggiuntivi

Abstract

I modelli di diffusione hanno recentemente ottenuto un'attenzione senza precedenti nel campo della sintesi di immagini grazie alle loro straordinarie capacità generative. Nonostante la loro potenza, questi modelli spesso comportano costi computazionali significativi, principalmente attribuiti al processo sequenziale di rimozione del rumore e alle dimensioni ingombranti del modello. I metodi tradizionali per comprimere i modelli di diffusione tipicamente richiedono un ampio riaddestramento, presentando sfide in termini di costi e fattibilità. In questo articolo, introduciamo DeepCache, un nuovo paradigma senza necessità di addestramento che accelera i modelli di diffusione dal punto di vista dell'architettura del modello. DeepCache sfrutta la ridondanza temporale intrinseca osservata nei passaggi sequenziali di rimozione del rumore dei modelli di diffusione, memorizzando e recuperando le caratteristiche attraverso fasi adiacenti di rimozione del rumore, riducendo così i calcoli ridondanti. Utilizzando le proprietà della U-Net, riutilizziamo le caratteristiche di alto livello mentre aggiorniamo quelle di basso livello in modo molto economico. Questa strategia innovativa consente un fattore di accelerazione di 2,3 volte per Stable Diffusion v1.5 con solo un calo di 0,05 nel CLIP Score, e di 4,1 volte per LDM-4-G con una leggera diminuzione di 0,22 nell'FID su ImageNet. I nostri esperimenti dimostrano anche la superiorità di DeepCache rispetto ai metodi esistenti di pruning e distillazione che richiedono riaddestramento, e la sua compatibilità con le tecniche di campionamento attuali. Inoltre, scopriamo che con la stessa velocità di elaborazione, DeepCache raggiunge risultati comparabili o addirittura leggermente migliori con DDIM o PLMS. Il codice è disponibile all'indirizzo https://github.com/horseee/DeepCache.

English

Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often incur substantial computational costs, primarily attributed to the sequential denoising process and cumbersome model size. Traditional methods for compressing diffusion models typically involve extensive retraining, presenting cost and feasibility challenges. In this paper, we introduce DeepCache, a novel training-free paradigm that accelerates diffusion models from the perspective of model architecture. DeepCache capitalizes on the inherent temporal redundancy observed in the sequential denoising steps of diffusion models, which caches and retrieves features across adjacent denoising stages, thereby curtailing redundant computations. Utilizing the property of the U-Net, we reuse the high-level features while updating the low-level features in a very cheap way. This innovative strategy, in turn, enables a speedup factor of 2.3times for Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1times for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments also demonstrate DeepCache's superiority over existing pruning and distillation methods that necessitate retraining and its compatibility with current sampling techniques. Furthermore, we find that under the same throughput, DeepCache effectively achieves comparable or even marginally improved results with DDIM or PLMS. The code is available at https://github.com/horseee/DeepCache

DeepCache: Accelerare i Modelli di Diffusione Senza Costi Aggiuntivi

DeepCache: Accelerating Diffusion Models for Free

Abstract

Support