DeepCache: Beschleunigung von Diffusionsmodellen ohne zusätzlichen Aufwand
DeepCache: Accelerating Diffusion Models for Free
December 1, 2023
Autoren: Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Zusammenfassung
Diffusionsmodelle haben in jüngster Zeit aufgrund ihrer bemerkenswerten generativen Fähigkeiten im Bereich der Bildsynthese beispiellose Aufmerksamkeit erlangt. Trotz ihrer Stärken verursachen diese Modelle oft erhebliche Rechenkosten, die hauptsächlich auf den sequenziellen Entrauschungsprozess und die umfangreiche Modellgröße zurückzuführen sind. Traditionelle Methoden zur Komprimierung von Diffusionsmodellen beinhalten in der Regel umfangreiche Nachschulungen, was Kosten- und Machbarkeitsprobleme mit sich bringt. In diesem Artikel stellen wir DeepCache vor, ein neuartiges, trainingsfreies Paradigma, das Diffusionsmodelle aus der Perspektive der Modellarchitektur beschleunigt. DeepCache nutzt die inhärente zeitliche Redundanz, die in den sequenziellen Entrauschungsschritten von Diffusionsmodellen beobachtet wird, indem es Merkmale über benachbarte Entrauschungsstufen zwischenspeichert und abruft, wodurch redundante Berechnungen reduziert werden. Unter Ausnutzung der Eigenschaften des U-Nets verwenden wir die hochrangigen Merkmale erneut, während wir die niedrigrangigen Merkmale auf sehr kostengünstige Weise aktualisieren. Diese innovative Strategie ermöglicht eine Beschleunigung um den Faktor 2,3 für Stable Diffusion v1.5 bei nur einem Rückgang von 0,05 im CLIP-Score und um den Faktor 4,1 für LDM-4-G bei einer leichten Verschlechterung von 0,22 im FID auf ImageNet. Unsere Experimente zeigen auch die Überlegenheit von DeepCache gegenüber bestehenden Beschneidungs- und Destillationsmethoden, die eine Nachschulung erfordern, sowie seine Kompatibilität mit aktuellen Sampling-Techniken. Darüber hinaus stellen wir fest, dass DeepCache bei gleichem Durchsatz vergleichbare oder sogar leicht verbesserte Ergebnisse mit DDIM oder PLMS effektiv erzielt. Der Code ist verfügbar unter https://github.com/horseee/DeepCache.
English
Diffusion models have recently gained unprecedented attention in the field of
image synthesis due to their remarkable generative capabilities.
Notwithstanding their prowess, these models often incur substantial
computational costs, primarily attributed to the sequential denoising process
and cumbersome model size. Traditional methods for compressing diffusion models
typically involve extensive retraining, presenting cost and feasibility
challenges. In this paper, we introduce DeepCache, a novel training-free
paradigm that accelerates diffusion models from the perspective of model
architecture. DeepCache capitalizes on the inherent temporal redundancy
observed in the sequential denoising steps of diffusion models, which caches
and retrieves features across adjacent denoising stages, thereby curtailing
redundant computations. Utilizing the property of the U-Net, we reuse the
high-level features while updating the low-level features in a very cheap way.
This innovative strategy, in turn, enables a speedup factor of 2.3times for
Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1times
for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments
also demonstrate DeepCache's superiority over existing pruning and distillation
methods that necessitate retraining and its compatibility with current sampling
techniques. Furthermore, we find that under the same throughput, DeepCache
effectively achieves comparable or even marginally improved results with DDIM
or PLMS. The code is available at https://github.com/horseee/DeepCache