FreSca: Erschließung des Skalierungsraums in Diffusionsmodellen

papers.abstract

Diffusionsmodelle bieten beeindruckende Kontrollierbarkeit für Bildaufgaben, hauptsächlich durch Rauschvorhersagen, die aufgabenspezifische Informationen kodieren, und durch klassifikatorfreie Steuerung, die eine einstellbare Skalierung ermöglicht. Dieser Skalierungsmechanismus definiert implizit einen „Skalierungsraum“, dessen Potenzial für fein abgestimmte semantische Manipulation bisher unzureichend erforscht ist. Wir untersuchen diesen Raum, beginnend mit inversionsbasierter Bearbeitung, bei der die Differenz zwischen bedingten und unbedingten Rauschvorhersagen wichtige semantische Informationen trägt. Unser zentraler Beitrag ergibt sich aus einer Fourier-Analyse der Rauschvorhersagen, die zeigt, dass sich deren nieder- und hochfrequente Komponenten im Verlauf der Diffusion unterschiedlich entwickeln. Basierend auf dieser Erkenntnis führen wir FreSca ein, eine einfache Methode, die die Skalierung der Steuerung unabhängig auf verschiedene Frequenzbänder im Fourier-Bereich anwendet. FreSca verbessert nachweislich bestehende Bildbearbeitungsmethoden ohne erneutes Training. Spannenderweise erstreckt sich seine Wirksamkeit auch auf Bildverständnisaufgaben wie Tiefenschätzung, was quantitative Verbesserungen über mehrere Datensätze hinweg liefert.

English

Diffusion models offer impressive controllability for image tasks, primarily through noise predictions that encode task-specific information and classifier-free guidance enabling adjustable scaling. This scaling mechanism implicitly defines a ``scaling space'' whose potential for fine-grained semantic manipulation remains underexplored. We investigate this space, starting with inversion-based editing where the difference between conditional/unconditional noise predictions carries key semantic information. Our core contribution stems from a Fourier analysis of noise predictions, revealing that its low- and high-frequency components evolve differently throughout diffusion. Based on this insight, we introduce FreSca, a straightforward method that applies guidance scaling independently to different frequency bands in the Fourier domain. FreSca demonstrably enhances existing image editing methods without retraining. Excitingly, its effectiveness extends to image understanding tasks such as depth estimation, yielding quantitative gains across multiple datasets.

FreSca: Erschließung des Skalierungsraums in Diffusionsmodellen

FreSca: Unveiling the Scaling Space in Diffusion Models

papers.abstract

Support