ChatPaper.aiChatPaper

DeepCache: Acelerando Modelos de Difusão sem Custos Adicionais

DeepCache: Accelerating Diffusion Models for Free

December 1, 2023
Autores: Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI

Resumo

Os modelos de difusão recentemente ganharam uma atenção sem precedentes no campo de síntese de imagens devido às suas notáveis capacidades generativas. Apesar de sua eficácia, esses modelos frequentemente acarretam custos computacionais substanciais, principalmente atribuídos ao processo sequencial de remoção de ruído e ao tamanho volumoso do modelo. Métodos tradicionais para comprimir modelos de difusão geralmente envolvem um extenso retreinamento, apresentando desafios de custo e viabilidade. Neste artigo, introduzimos o DeepCache, um novo paradigma livre de treinamento que acelera modelos de difusão a partir da perspectiva da arquitetura do modelo. O DeepCache aproveita a redundância temporal inerente observada nas etapas sequenciais de remoção de ruído dos modelos de difusão, armazenando e recuperando recursos entre estágios adjacentes de remoção de ruído, reduzindo assim cálculos redundantes. Utilizando a propriedade da U-Net, reutilizamos os recursos de alto nível enquanto atualizamos os recursos de baixo nível de maneira extremamente eficiente. Essa estratégia inovadora, por sua vez, permite um fator de aceleração de 2,3 vezes para o Stable Diffusion v1.5 com apenas um declínio de 0,05 no CLIP Score, e 4,1 vezes para o LDM-4-G com uma leve redução de 0,22 no FID no ImageNet. Nossos experimentos também demonstram a superioridade do DeepCache sobre métodos existentes de poda e destilação que exigem retreinamento, bem como sua compatibilidade com técnicas de amostragem atuais. Além disso, descobrimos que, sob a mesma taxa de transferência, o DeepCache efetivamente alcança resultados comparáveis ou até ligeiramente melhorados com DDIM ou PLMS. O código está disponível em https://github.com/horseee/DeepCache.
English
Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often incur substantial computational costs, primarily attributed to the sequential denoising process and cumbersome model size. Traditional methods for compressing diffusion models typically involve extensive retraining, presenting cost and feasibility challenges. In this paper, we introduce DeepCache, a novel training-free paradigm that accelerates diffusion models from the perspective of model architecture. DeepCache capitalizes on the inherent temporal redundancy observed in the sequential denoising steps of diffusion models, which caches and retrieves features across adjacent denoising stages, thereby curtailing redundant computations. Utilizing the property of the U-Net, we reuse the high-level features while updating the low-level features in a very cheap way. This innovative strategy, in turn, enables a speedup factor of 2.3times for Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1times for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments also demonstrate DeepCache's superiority over existing pruning and distillation methods that necessitate retraining and its compatibility with current sampling techniques. Furthermore, we find that under the same throughput, DeepCache effectively achieves comparable or even marginally improved results with DDIM or PLMS. The code is available at https://github.com/horseee/DeepCache
PDF231February 7, 2026