FreeU : Repas gratuit dans les U-Nets de diffusion
FreeU: Free Lunch in Diffusion U-Net
September 20, 2023
Auteurs: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
cs.AI
Résumé
Dans cet article, nous révélons le potentiel inexploité du U-Net de diffusion, qui
sert de "repas gratuit" améliorant considérablement la qualité de génération à la volée.
Nous étudions d'abord les contributions clés de l'architecture U-Net au processus de
débruitage et identifions que son squelette principal contribue principalement au
débruitage, tandis que ses connexions skip introduisent principalement des caractéristiques
haute fréquence dans le module de décodeur, ce qui amène le réseau à négliger la sémantique
du squelette. En capitalisant sur cette découverte, nous proposons une méthode simple
mais efficace, appelée "FreeU", qui améliore la qualité de génération sans nécessiter
d'entraînement ou de réglage supplémentaire. Notre idée clé est de rééquilibrer stratégiquement
les contributions provenant des connexions skip et des cartes de caractéristiques du squelette
du U-Net, afin de tirer parti des forces des deux composants de l'architecture U-Net. Des
résultats prometteurs sur les tâches de génération d'images et de vidéos démontrent que notre
FreeU peut être facilement intégré aux modèles de diffusion existants, tels que Stable Diffusion,
DreamBooth, ModelScope, Rerender et ReVersion, pour améliorer la qualité de génération avec
seulement quelques lignes de code. Tout ce dont vous avez besoin est d'ajuster deux facteurs
d'échelle lors de l'inférence. Page du projet : https://chenyangsi.top/FreeU/.
English
In this paper, we uncover the untapped potential of diffusion U-Net, which
serves as a "free lunch" that substantially improves the generation quality on
the fly. We initially investigate the key contributions of the U-Net
architecture to the denoising process and identify that its main backbone
primarily contributes to denoising, whereas its skip connections mainly
introduce high-frequency features into the decoder module, causing the network
to overlook the backbone semantics. Capitalizing on this discovery, we propose
a simple yet effective method-termed "FreeU" - that enhances generation quality
without additional training or finetuning. Our key insight is to strategically
re-weight the contributions sourced from the U-Net's skip connections and
backbone feature maps, to leverage the strengths of both components of the
U-Net architecture. Promising results on image and video generation tasks
demonstrate that our FreeU can be readily integrated to existing diffusion
models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion,
to improve the generation quality with only a few lines of code. All you need
is to adjust two scaling factors during inference. Project page:
https://chenyangsi.top/FreeU/.