ChatPaper.aiChatPaper

Um Ruído Vale a Pena Orientação por Difusão

A Noise is Worth Diffusion Guidance

December 5, 2024
Autores: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim
cs.AI

Resumo

Os modelos de difusão destacam-se na geração de imagens de alta qualidade. No entanto, os modelos de difusão atuais têm dificuldade em produzir imagens confiáveis sem métodos de orientação, como orientação sem classificador (CFG). Será que os métodos de orientação são realmente necessários? Observando que o ruído obtido através da inversão de difusão pode reconstruir imagens de alta qualidade sem orientação, focamos no ruído inicial do pipeline de remoção de ruído. Ao mapear o ruído gaussiano para 'ruído livre de orientação', descobrimos que pequenos componentes de baixa magnitude e baixa frequência melhoram significativamente o processo de remoção de ruído, eliminando a necessidade de orientação e, assim, melhorando tanto a eficiência da inferência quanto a memória. Expandindo isso, propomos \ours, um método inovador que substitui os métodos de orientação por um único refinamento do ruído inicial. Esse ruído refinado possibilita a geração de imagens de alta qualidade sem orientação, dentro do mesmo pipeline de difusão. Nosso modelo de refinamento de ruído aproveita a aprendizagem eficiente no espaço de ruído, alcançando uma convergência rápida e um desempenho sólido com apenas 50 mil pares de texto-imagem. Validamos sua eficácia em diversas métricas e analisamos como o ruído refinado pode eliminar a necessidade de orientação. Consulte nossa página do projeto: https://cvlab-kaist.github.io/NoiseRefine/.
English
Diffusion models excel in generating high-quality images. However, current diffusion models struggle to produce reliable images without guidance methods, such as classifier-free guidance (CFG). Are guidance methods truly necessary? Observing that noise obtained via diffusion inversion can reconstruct high-quality images without guidance, we focus on the initial noise of the denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we uncover that small low-magnitude low-frequency components significantly enhance the denoising process, removing the need for guidance and thus improving both inference throughput and memory. Expanding on this, we propose \ours, a novel method that replaces guidance methods with a single refinement of the initial noise. This refined noise enables high-quality image generation without guidance, within the same diffusion pipeline. Our noise-refining model leverages efficient noise-space learning, achieving rapid convergence and strong performance with just 50K text-image pairs. We validate its effectiveness across diverse metrics and analyze how refined noise can eliminate the need for guidance. See our project page: https://cvlab-kaist.github.io/NoiseRefine/.

Summary

AI-Generated Summary

PDF313December 6, 2024