Ein Rauschen ist die Verbreitungsanleitung wert.

papers.abstract

Diffusionsmodelle zeichnen sich durch die Generierung hochwertiger Bilder aus. Allerdings haben aktuelle Diffusionsmodelle Schwierigkeiten, zuverlässige Bilder ohne Anleitungsmethoden wie den leitlinienfreien Leitfaden (CFG) zu erzeugen. Sind Leitlinienmethoden wirklich notwendig? Durch die Beobachtung, dass Rauschen, das durch Diffusionsinversion erhalten wird, hochwertige Bilder ohne Anleitung rekonstruieren kann, konzentrieren wir uns auf das anfängliche Rauschen des Entrauschungspipelines. Durch die Zuordnung von Gauß'schem Rauschen zu "leitlinienfreiem Rauschen" decken wir auf, dass kleine, niedrigmagnitudige, niederfrequente Komponenten den Entrauschungsprozess signifikant verbessern, was die Notwendigkeit von Leitlinien beseitigt und somit sowohl die Inferenzdurchsatz als auch den Speicher verbessert. Aufbauend darauf schlagen wir \ours vor, eine neuartige Methode, die Leitlinienmethoden durch eine einzige Verfeinerung des anfänglichen Rauschens ersetzt. Dieses verfeinerte Rauschen ermöglicht die Generierung hochwertiger Bilder ohne Leitlinien innerhalb derselben Diffusionspipeline. Unser Rauschverfeinerungsmodell nutzt effizientes Lernen im Rauschraum, um eine schnelle Konvergenz und starke Leistung mit nur 50.000 Text-Bild-Paaren zu erreichen. Wir validieren seine Wirksamkeit anhand verschiedener Metriken und analysieren, wie verfeinertes Rauschen die Notwendigkeit von Leitlinien beseitigen kann. Besuchen Sie unsere Projektseite: https://cvlab-kaist.github.io/NoiseRefine/.

English

Diffusion models excel in generating high-quality images. However, current diffusion models struggle to produce reliable images without guidance methods, such as classifier-free guidance (CFG). Are guidance methods truly necessary? Observing that noise obtained via diffusion inversion can reconstruct high-quality images without guidance, we focus on the initial noise of the denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we uncover that small low-magnitude low-frequency components significantly enhance the denoising process, removing the need for guidance and thus improving both inference throughput and memory. Expanding on this, we propose \ours, a novel method that replaces guidance methods with a single refinement of the initial noise. This refined noise enables high-quality image generation without guidance, within the same diffusion pipeline. Our noise-refining model leverages efficient noise-space learning, achieving rapid convergence and strong performance with just 50K text-image pairs. We validate its effectiveness across diverse metrics and analyze how refined noise can eliminate the need for guidance. See our project page: https://cvlab-kaist.github.io/NoiseRefine/.

Ein Rauschen ist die Verbreitungsanleitung wert.

A Noise is Worth Diffusion Guidance

papers.abstract

Support