Een ruis is de moeite waard diffusiebegeleiding.

Samenvatting

Diffusiemodellen excelleren in het genereren van hoogwaardige afbeeldingen. Echter, huidige diffusiemodellen hebben moeite om betrouwbare afbeeldingen te produceren zonder begeleidingsmethoden, zoals begeleiding zonder classifier (CFG). Zijn begeleidingsmethoden werkelijk noodzakelijk? Door te observeren dat ruis verkregen via diffusie-inversie hoogwaardige afbeeldingen kan reconstrueren zonder begeleiding, richten we ons op de initiële ruis van het denoising-pijplijn. Door Gaussische ruis te mappen naar 'begeleidingsvrije ruis', ontdekken we dat kleine lage-magnitude lage-frequentie componenten het denoising-proces aanzienlijk verbeteren, waardoor de noodzaak voor begeleiding wordt weggenomen en zowel de inferentie-doorvoer als het geheugen worden verbeterd. Voortbouwend hierop stellen we \ours voor, een nieuw method die begeleidingsmethoden vervangt door een enkele verfijning van de initiële ruis. Deze verfijnde ruis maakt hoogwaardige beeldgeneratie mogelijk zonder begeleiding, binnen dezelfde diffusiepijplijn. Ons ruis-verfijningsmodel maakt gebruik van efficiënt leren in ruimte van ruis, waardoor snelle convergentie en sterke prestaties worden behaald met slechts 50K tekst-afbeeldingsparen. We valideren de effectiviteit ervan aan de hand van diverse metrieken en analyseren hoe verfijnde ruis de noodzaak voor begeleiding kan elimineren. Zie onze projectpagina: https://cvlab-kaist.github.io/NoiseRefine/.

English

Diffusion models excel in generating high-quality images. However, current diffusion models struggle to produce reliable images without guidance methods, such as classifier-free guidance (CFG). Are guidance methods truly necessary? Observing that noise obtained via diffusion inversion can reconstruct high-quality images without guidance, we focus on the initial noise of the denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we uncover that small low-magnitude low-frequency components significantly enhance the denoising process, removing the need for guidance and thus improving both inference throughput and memory. Expanding on this, we propose \ours, a novel method that replaces guidance methods with a single refinement of the initial noise. This refined noise enables high-quality image generation without guidance, within the same diffusion pipeline. Our noise-refining model leverages efficient noise-space learning, achieving rapid convergence and strong performance with just 50K text-image pairs. We validate its effectiveness across diverse metrics and analyze how refined noise can eliminate the need for guidance. See our project page: https://cvlab-kaist.github.io/NoiseRefine/.

Een ruis is de moeite waard diffusiebegeleiding.

A Noise is Worth Diffusion Guidance

Samenvatting

Support