ChatPaper.aiChatPaper

FreeU: Almoço Grátis na U-Net de Difusão

FreeU: Free Lunch in Diffusion U-Net

September 20, 2023
Autores: Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu
cs.AI

Resumo

Neste artigo, revelamos o potencial inexplorado da U-Net de difusão, que funciona como um "almoço grátis" que melhora substancialmente a qualidade da geração em tempo real. Inicialmente, investigamos as principais contribuições da arquitetura U-Net para o processo de remoção de ruído e identificamos que sua estrutura principal contribui principalmente para a remoção de ruído, enquanto suas conexões skip introduzem principalmente características de alta frequência no módulo decodificador, fazendo com que a rede negligencie a semântica da estrutura principal. Aproveitando essa descoberta, propomos um método simples, porém eficaz, denominado "FreeU", que melhora a qualidade da geração sem a necessidade de treinamento adicional ou ajuste fino. Nossa principal ideia é re-ponderar estrategicamente as contribuições provenientes das conexões skip e dos mapas de características da estrutura principal da U-Net, para aproveitar os pontos fortes de ambos os componentes da arquitetura U-Net. Resultados promissores em tarefas de geração de imagens e vídeos demonstram que nosso FreeU pode ser facilmente integrado a modelos de difusão existentes, como Stable Diffusion, DreamBooth, ModelScope, Rerender e ReVersion, para melhorar a qualidade da geração com apenas algumas linhas de código. Tudo o que você precisa fazer é ajustar dois fatores de escala durante a inferência. Página do projeto: https://chenyangsi.top/FreeU/.
English
In this paper, we uncover the untapped potential of diffusion U-Net, which serves as a "free lunch" that substantially improves the generation quality on the fly. We initially investigate the key contributions of the U-Net architecture to the denoising process and identify that its main backbone primarily contributes to denoising, whereas its skip connections mainly introduce high-frequency features into the decoder module, causing the network to overlook the backbone semantics. Capitalizing on this discovery, we propose a simple yet effective method-termed "FreeU" - that enhances generation quality without additional training or finetuning. Our key insight is to strategically re-weight the contributions sourced from the U-Net's skip connections and backbone feature maps, to leverage the strengths of both components of the U-Net architecture. Promising results on image and video generation tasks demonstrate that our FreeU can be readily integrated to existing diffusion models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion, to improve the generation quality with only a few lines of code. All you need is to adjust two scaling factors during inference. Project page: https://chenyangsi.top/FreeU/.
PDF656February 8, 2026