ChatPaper.aiChatPaper

DeepCache: Versnelling van diffusiemodellen zonder kosten

DeepCache: Accelerating Diffusion Models for Free

December 1, 2023
Auteurs: Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI

Samenvatting

Diffusiemodellen hebben recentelijk ongekende aandacht gekregen op het gebied van beeldgeneratie vanwege hun opmerkelijke generatieve capaciteiten. Ondanks hun kracht brengen deze modellen vaak aanzienlijke rekenkosten met zich mee, voornamelijk toe te schrijven aan het sequentiële ruisverwijderingsproces en de omvangrijke modelgrootte. Traditionele methoden voor het comprimeren van diffusiemodellen vereisen doorgaans uitgebreide hertraining, wat kosten- en haalbaarheidsuitdagingen met zich meebrengt. In dit artikel introduceren we DeepCache, een nieuw trainingsvrij paradigma dat diffusiemodellen versnelt vanuit het perspectief van modelarchitectuur. DeepCache maakt gebruik van de inherente temporele redundantie die wordt waargenomen in de sequentiële ruisverwijderingsstappen van diffusiemodellen, waarbij kenmerken worden opgeslagen en opgehaald tussen aangrenzende ruisverwijderingsfasen, waardoor overbodige berekeningen worden beperkt. Door gebruik te maken van de eigenschappen van de U-Net, hergebruiken we de hoogwaardige kenmerken terwijl we de laagwaardige kenmerken op een zeer efficiënte manier bijwerken. Deze innovatieve strategie maakt een versnellingsfactor van 2,3 keer mogelijk voor Stable Diffusion v1.5 met slechts een daling van 0,05 in de CLIP Score, en 4,1 keer voor LDM-4-G met een lichte afname van 0,22 in FID op ImageNet. Onze experimenten tonen ook de superioriteit van DeepCache aan ten opzichte van bestaande pruning- en distillatiemethoden die hertraining vereisen, evenals de compatibiliteit met huidige samplingtechnieken. Bovendien blijkt dat bij dezelfde doorvoer DeepCache effectief vergelijkbare of zelfs licht verbeterde resultaten behaalt met DDIM of PLMS. De code is beschikbaar op https://github.com/horseee/DeepCache.
English
Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often incur substantial computational costs, primarily attributed to the sequential denoising process and cumbersome model size. Traditional methods for compressing diffusion models typically involve extensive retraining, presenting cost and feasibility challenges. In this paper, we introduce DeepCache, a novel training-free paradigm that accelerates diffusion models from the perspective of model architecture. DeepCache capitalizes on the inherent temporal redundancy observed in the sequential denoising steps of diffusion models, which caches and retrieves features across adjacent denoising stages, thereby curtailing redundant computations. Utilizing the property of the U-Net, we reuse the high-level features while updating the low-level features in a very cheap way. This innovative strategy, in turn, enables a speedup factor of 2.3times for Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1times for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments also demonstrate DeepCache's superiority over existing pruning and distillation methods that necessitate retraining and its compatibility with current sampling techniques. Furthermore, we find that under the same throughput, DeepCache effectively achieves comparable or even marginally improved results with DDIM or PLMS. The code is available at https://github.com/horseee/DeepCache
PDF231February 7, 2026