ChatPaper.aiChatPaper

Clockwork Diffusion: Generación Eficiente con Distilación de Pasos del Modelo

Clockwork Diffusion: Efficient Generation With Model-Step Distillation

December 13, 2023
Autores: Amirhossein Habibian, Amir Ghodrati, Noor Fathima, Guillaume Sautiere, Risheek Garrepalli, Fatih Porikli, Jens Petersen
cs.AI

Resumen

Este trabajo tiene como objetivo mejorar la eficiencia de los modelos de difusión de texto a imagen. Si bien los modelos de difusión utilizan operaciones de eliminación de ruido basadas en UNet que son computacionalmente costosas en cada paso de generación, identificamos que no todas las operaciones son igualmente relevantes para la calidad final de la salida. En particular, observamos que las capas de UNet que operan en mapas de características de alta resolución son relativamente sensibles a pequeñas perturbaciones. En contraste, los mapas de características de baja resolución influyen en la disposición semántica de la imagen final y a menudo pueden ser perturbados sin cambios perceptibles en la salida. Basándonos en esta observación, proponemos Clockwork Diffusion, un método que reutiliza periódicamente cálculos de pasos previos de eliminación de ruido para aproximar mapas de características de baja resolución en uno o más pasos posteriores. Para múltiples líneas base, y tanto para la generación de texto a imagen como para la edición de imágenes, demostramos que Clockwork logra puntajes perceptuales comparables o mejorados con una complejidad computacional drásticamente reducida. Como ejemplo, para Stable Diffusion v1.5 con 8 pasos de DPM++, ahorramos un 32% de FLOPs con cambios insignificantes en FID y CLIP.
English
This work aims to improve the efficiency of text-to-image diffusion models. While diffusion models use computationally expensive UNet-based denoising operations in every generation step, we identify that not all operations are equally relevant for the final output quality. In particular, we observe that UNet layers operating on high-res feature maps are relatively sensitive to small perturbations. In contrast, low-res feature maps influence the semantic layout of the final image and can often be perturbed with no noticeable change in the output. Based on this observation, we propose Clockwork Diffusion, a method that periodically reuses computation from preceding denoising steps to approximate low-res feature maps at one or more subsequent steps. For multiple baselines, and for both text-to-image generation and image editing, we demonstrate that Clockwork leads to comparable or improved perceptual scores with drastically reduced computational complexity. As an example, for Stable Diffusion v1.5 with 8 DPM++ steps we save 32% of FLOPs with negligible FID and CLIP change.
PDF150December 15, 2024