FreeU: Almoço Grátis na U-Net de Difusão
FreeU: Free Lunch in Diffusion U-Net
September 20, 2023
Autores: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
cs.AI
Resumo
Neste artigo, revelamos o potencial inexplorado da U-Net de difusão, que
funciona como um "almoço grátis" que melhora substancialmente a qualidade da
geração em tempo real. Inicialmente, investigamos as principais contribuições
da arquitetura U-Net para o processo de remoção de ruído e identificamos que
sua estrutura principal contribui principalmente para a remoção de ruído,
enquanto suas conexões skip introduzem principalmente características de alta
frequência no módulo decodificador, fazendo com que a rede negligencie a
semântica da estrutura principal. Aproveitando essa descoberta, propomos um
método simples, porém eficaz, denominado "FreeU", que melhora a qualidade da
geração sem a necessidade de treinamento adicional ou ajuste fino. Nossa
principal ideia é re-ponderar estrategicamente as contribuições provenientes
das conexões skip e dos mapas de características da estrutura principal da
U-Net, para aproveitar os pontos fortes de ambos os componentes da arquitetura
U-Net. Resultados promissores em tarefas de geração de imagens e vídeos
demonstram que nosso FreeU pode ser facilmente integrado a modelos de difusão
existentes, como Stable Diffusion, DreamBooth, ModelScope, Rerender e
ReVersion, para melhorar a qualidade da geração com apenas algumas linhas de
código. Tudo o que você precisa fazer é ajustar dois fatores de escala durante
a inferência. Página do projeto: https://chenyangsi.top/FreeU/.
English
In this paper, we uncover the untapped potential of diffusion U-Net, which
serves as a "free lunch" that substantially improves the generation quality on
the fly. We initially investigate the key contributions of the U-Net
architecture to the denoising process and identify that its main backbone
primarily contributes to denoising, whereas its skip connections mainly
introduce high-frequency features into the decoder module, causing the network
to overlook the backbone semantics. Capitalizing on this discovery, we propose
a simple yet effective method-termed "FreeU" - that enhances generation quality
without additional training or finetuning. Our key insight is to strategically
re-weight the contributions sourced from the U-Net's skip connections and
backbone feature maps, to leverage the strengths of both components of the
U-Net architecture. Promising results on image and video generation tasks
demonstrate that our FreeU can be readily integrated to existing diffusion
models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion,
to improve the generation quality with only a few lines of code. All you need
is to adjust two scaling factors during inference. Project page:
https://chenyangsi.top/FreeU/.