Ein Rauschen ist die Verbreitungsanleitung wert.
A Noise is Worth Diffusion Guidance
December 5, 2024
Autoren: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim
cs.AI
Zusammenfassung
Diffusionsmodelle zeichnen sich durch die Generierung hochwertiger Bilder aus. Allerdings haben aktuelle Diffusionsmodelle Schwierigkeiten, zuverlässige Bilder ohne Anleitungsmethoden wie den leitlinienfreien Leitfaden (CFG) zu erzeugen. Sind Leitlinienmethoden wirklich notwendig? Durch die Beobachtung, dass Rauschen, das durch Diffusionsinversion erhalten wird, hochwertige Bilder ohne Anleitung rekonstruieren kann, konzentrieren wir uns auf das anfängliche Rauschen des Entrauschungspipelines. Durch die Zuordnung von Gauß'schem Rauschen zu "leitlinienfreiem Rauschen" decken wir auf, dass kleine, niedrigmagnitudige, niederfrequente Komponenten den Entrauschungsprozess signifikant verbessern, was die Notwendigkeit von Leitlinien beseitigt und somit sowohl die Inferenzdurchsatz als auch den Speicher verbessert. Aufbauend darauf schlagen wir \ours vor, eine neuartige Methode, die Leitlinienmethoden durch eine einzige Verfeinerung des anfänglichen Rauschens ersetzt. Dieses verfeinerte Rauschen ermöglicht die Generierung hochwertiger Bilder ohne Leitlinien innerhalb derselben Diffusionspipeline. Unser Rauschverfeinerungsmodell nutzt effizientes Lernen im Rauschraum, um eine schnelle Konvergenz und starke Leistung mit nur 50.000 Text-Bild-Paaren zu erreichen. Wir validieren seine Wirksamkeit anhand verschiedener Metriken und analysieren, wie verfeinertes Rauschen die Notwendigkeit von Leitlinien beseitigen kann. Besuchen Sie unsere Projektseite: https://cvlab-kaist.github.io/NoiseRefine/.
English
Diffusion models excel in generating high-quality images. However, current
diffusion models struggle to produce reliable images without guidance methods,
such as classifier-free guidance (CFG). Are guidance methods truly necessary?
Observing that noise obtained via diffusion inversion can reconstruct
high-quality images without guidance, we focus on the initial noise of the
denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we
uncover that small low-magnitude low-frequency components significantly enhance
the denoising process, removing the need for guidance and thus improving both
inference throughput and memory. Expanding on this, we propose \ours, a novel
method that replaces guidance methods with a single refinement of the initial
noise. This refined noise enables high-quality image generation without
guidance, within the same diffusion pipeline. Our noise-refining model
leverages efficient noise-space learning, achieving rapid convergence and
strong performance with just 50K text-image pairs. We validate its
effectiveness across diverse metrics and analyze how refined noise can
eliminate the need for guidance. See our project page:
https://cvlab-kaist.github.io/NoiseRefine/.