FreeU: Gratis Lunch in Diffusie U-Net
FreeU: Free Lunch in Diffusion U-Net
September 20, 2023
Auteurs: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
cs.AI
Samenvatting
In dit artikel onthullen we het onbenutte potentieel van de diffusion U-Net, die
dient als een "gratis bonus" die de generatiekwaliteit aanzienlijk verbetert
tijdens het proces. We onderzoeken eerst de belangrijkste bijdragen van de U-Net
architectuur aan het ruisonderdrukkingsproces en identificeren dat de hoofdbackbone
voornamelijk bijdraagt aan ruisonderdrukking, terwijl de skip-connecties vooral
hoogfrequente kenmerken introduceren in de decodermodule, waardoor het netwerk
de semantiek van de backbone over het hoofd ziet. Gebruikmakend van deze ontdekking,
stellen we een eenvoudige maar effectieve methode voor - genaamd "FreeU" - die de
generatiekwaliteit verbetert zonder extra training of finetuning. Onze belangrijkste
inzicht is om strategisch de bijdragen van de skip-connecties en de backbone
feature maps van de U-Net te herwegen, om de sterke punten van beide componenten
van de U-Net architectuur te benutten. Veelbelovende resultaten op beeld- en
videogeneratietaken tonen aan dat onze FreeU eenvoudig kan worden geïntegreerd
in bestaande diffusiemodellen, zoals Stable Diffusion, DreamBooth, ModelScope,
Rerender en ReVersion, om de generatiekwaliteit te verbeteren met slechts een
paar regels code. Het enige wat u hoeft te doen is twee schaalfactoren aan te
passen tijdens de inferentie. Projectpagina: https://chenyangsi.top/FreeU/.
English
In this paper, we uncover the untapped potential of diffusion U-Net, which
serves as a "free lunch" that substantially improves the generation quality on
the fly. We initially investigate the key contributions of the U-Net
architecture to the denoising process and identify that its main backbone
primarily contributes to denoising, whereas its skip connections mainly
introduce high-frequency features into the decoder module, causing the network
to overlook the backbone semantics. Capitalizing on this discovery, we propose
a simple yet effective method-termed "FreeU" - that enhances generation quality
without additional training or finetuning. Our key insight is to strategically
re-weight the contributions sourced from the U-Net's skip connections and
backbone feature maps, to leverage the strengths of both components of the
U-Net architecture. Promising results on image and video generation tasks
demonstrate that our FreeU can be readily integrated to existing diffusion
models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion,
to improve the generation quality with only a few lines of code. All you need
is to adjust two scaling factors during inference. Project page:
https://chenyangsi.top/FreeU/.