ChatPaper.aiChatPaper

FreeU: Kostenloses Mittagessen im Diffusion U-Net

FreeU: Free Lunch in Diffusion U-Net

September 20, 2023
Autoren: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
cs.AI

Zusammenfassung

In diesem Artikel erschließen wir das ungenutzte Potenzial des Diffusion U-Nets, das als „kostenlose Verbesserung“ dient und die Generierungsqualität erheblich steigert. Wir untersuchen zunächst die wesentlichen Beiträge der U-Net-Architektur zum Entrauschungsprozess und stellen fest, dass ihr Hauptgerüst primär zur Entrauschung beiträgt, während ihre Skip-Verbindungen hauptsächlich hochfrequente Merkmale in das Decoder-Modul einbringen, was dazu führt, dass das Netzwerk die Semantik des Gerüsts vernachlässigt. Basierend auf dieser Erkenntnis schlagen wir eine einfache, aber effektive Methode vor – genannt „FreeU“ –, die die Generierungsqualität ohne zusätzliches Training oder Feinabstimmung verbessert. Unser zentraler Ansatz besteht darin, die Beiträge der Skip-Verbindungen und der Feature-Maps des U-Net-Gerüsts strategisch neu zu gewichten, um die Stärken beider Komponenten der U-Net-Architektur zu nutzen. Vielversprechende Ergebnisse bei Bild- und Videogenerierungsaufgaben zeigen, dass unser FreeU problemlos in bestehende Diffusionsmodelle wie Stable Diffusion, DreamBooth, ModelScope, Rerender und ReVersion integriert werden kann, um die Generierungsqualität mit nur wenigen Codezeilen zu verbessern. Alles, was benötigt wird, ist die Anpassung zweier Skalierungsfaktoren während der Inferenz. Projektseite: https://chenyangsi.top/FreeU/.
English
In this paper, we uncover the untapped potential of diffusion U-Net, which serves as a "free lunch" that substantially improves the generation quality on the fly. We initially investigate the key contributions of the U-Net architecture to the denoising process and identify that its main backbone primarily contributes to denoising, whereas its skip connections mainly introduce high-frequency features into the decoder module, causing the network to overlook the backbone semantics. Capitalizing on this discovery, we propose a simple yet effective method-termed "FreeU" - that enhances generation quality without additional training or finetuning. Our key insight is to strategically re-weight the contributions sourced from the U-Net's skip connections and backbone feature maps, to leverage the strengths of both components of the U-Net architecture. Promising results on image and video generation tasks demonstrate that our FreeU can be readily integrated to existing diffusion models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion, to improve the generation quality with only a few lines of code. All you need is to adjust two scaling factors during inference. Project page: https://chenyangsi.top/FreeU/.
PDF656December 15, 2024