Een ruis is de moeite waard diffusiebegeleiding.
A Noise is Worth Diffusion Guidance
December 5, 2024
Auteurs: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim
cs.AI
Samenvatting
Diffusiemodellen excelleren in het genereren van hoogwaardige afbeeldingen. Echter, huidige diffusiemodellen hebben moeite om betrouwbare afbeeldingen te produceren zonder begeleidingsmethoden, zoals begeleiding zonder classifier (CFG). Zijn begeleidingsmethoden werkelijk noodzakelijk? Door te observeren dat ruis verkregen via diffusie-inversie hoogwaardige afbeeldingen kan reconstrueren zonder begeleiding, richten we ons op de initiële ruis van het denoising-pijplijn. Door Gaussische ruis te mappen naar 'begeleidingsvrije ruis', ontdekken we dat kleine lage-magnitude lage-frequentie componenten het denoising-proces aanzienlijk verbeteren, waardoor de noodzaak voor begeleiding wordt weggenomen en zowel de inferentie-doorvoer als het geheugen worden verbeterd. Voortbouwend hierop stellen we \ours voor, een nieuw method die begeleidingsmethoden vervangt door een enkele verfijning van de initiële ruis. Deze verfijnde ruis maakt hoogwaardige beeldgeneratie mogelijk zonder begeleiding, binnen dezelfde diffusiepijplijn. Ons ruis-verfijningsmodel maakt gebruik van efficiënt leren in ruimte van ruis, waardoor snelle convergentie en sterke prestaties worden behaald met slechts 50K tekst-afbeeldingsparen. We valideren de effectiviteit ervan aan de hand van diverse metrieken en analyseren hoe verfijnde ruis de noodzaak voor begeleiding kan elimineren. Zie onze projectpagina: https://cvlab-kaist.github.io/NoiseRefine/.
English
Diffusion models excel in generating high-quality images. However, current
diffusion models struggle to produce reliable images without guidance methods,
such as classifier-free guidance (CFG). Are guidance methods truly necessary?
Observing that noise obtained via diffusion inversion can reconstruct
high-quality images without guidance, we focus on the initial noise of the
denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we
uncover that small low-magnitude low-frequency components significantly enhance
the denoising process, removing the need for guidance and thus improving both
inference throughput and memory. Expanding on this, we propose \ours, a novel
method that replaces guidance methods with a single refinement of the initial
noise. This refined noise enables high-quality image generation without
guidance, within the same diffusion pipeline. Our noise-refining model
leverages efficient noise-space learning, achieving rapid convergence and
strong performance with just 50K text-image pairs. We validate its
effectiveness across diverse metrics and analyze how refined noise can
eliminate the need for guidance. See our project page:
https://cvlab-kaist.github.io/NoiseRefine/.