FreeU: Kostenloses Mittagessen im Diffusion U-Net
FreeU: Free Lunch in Diffusion U-Net
September 20, 2023
Autoren: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
cs.AI
Zusammenfassung
In diesem Artikel erschließen wir das ungenutzte Potenzial des Diffusion U-Nets, das als „kostenlose Verbesserung“ dient und die Generierungsqualität erheblich steigert. Wir untersuchen zunächst die wesentlichen Beiträge der U-Net-Architektur zum Entrauschungsprozess und stellen fest, dass ihr Hauptgerüst primär zur Entrauschung beiträgt, während ihre Skip-Verbindungen hauptsächlich hochfrequente Merkmale in das Decoder-Modul einbringen, was dazu führt, dass das Netzwerk die Semantik des Gerüsts vernachlässigt. Basierend auf dieser Erkenntnis schlagen wir eine einfache, aber effektive Methode vor – genannt „FreeU“ –, die die Generierungsqualität ohne zusätzliches Training oder Feinabstimmung verbessert. Unser zentraler Ansatz besteht darin, die Beiträge der Skip-Verbindungen und der Feature-Maps des U-Net-Gerüsts strategisch neu zu gewichten, um die Stärken beider Komponenten der U-Net-Architektur zu nutzen. Vielversprechende Ergebnisse bei Bild- und Videogenerierungsaufgaben zeigen, dass unser FreeU problemlos in bestehende Diffusionsmodelle wie Stable Diffusion, DreamBooth, ModelScope, Rerender und ReVersion integriert werden kann, um die Generierungsqualität mit nur wenigen Codezeilen zu verbessern. Alles, was benötigt wird, ist die Anpassung zweier Skalierungsfaktoren während der Inferenz. Projektseite: https://chenyangsi.top/FreeU/.
English
In this paper, we uncover the untapped potential of diffusion U-Net, which
serves as a "free lunch" that substantially improves the generation quality on
the fly. We initially investigate the key contributions of the U-Net
architecture to the denoising process and identify that its main backbone
primarily contributes to denoising, whereas its skip connections mainly
introduce high-frequency features into the decoder module, causing the network
to overlook the backbone semantics. Capitalizing on this discovery, we propose
a simple yet effective method-termed "FreeU" - that enhances generation quality
without additional training or finetuning. Our key insight is to strategically
re-weight the contributions sourced from the U-Net's skip connections and
backbone feature maps, to leverage the strengths of both components of the
U-Net architecture. Promising results on image and video generation tasks
demonstrate that our FreeU can be readily integrated to existing diffusion
models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion,
to improve the generation quality with only a few lines of code. All you need
is to adjust two scaling factors during inference. Project page:
https://chenyangsi.top/FreeU/.