FreSca: Erschließung des Skalierungsraums in Diffusionsmodellen
FreSca: Unveiling the Scaling Space in Diffusion Models
April 2, 2025
Autoren: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI
Zusammenfassung
Diffusionsmodelle bieten beeindruckende Kontrollierbarkeit für Bildaufgaben, hauptsächlich durch Rauschvorhersagen, die aufgabenspezifische Informationen kodieren, und durch klassifikatorfreie Steuerung, die eine einstellbare Skalierung ermöglicht. Dieser Skalierungsmechanismus definiert implizit einen „Skalierungsraum“, dessen Potenzial für fein abgestimmte semantische Manipulation bisher unzureichend erforscht ist. Wir untersuchen diesen Raum, beginnend mit inversionsbasierter Bearbeitung, bei der die Differenz zwischen bedingten und unbedingten Rauschvorhersagen wichtige semantische Informationen trägt. Unser zentraler Beitrag ergibt sich aus einer Fourier-Analyse der Rauschvorhersagen, die zeigt, dass sich deren nieder- und hochfrequente Komponenten im Verlauf der Diffusion unterschiedlich entwickeln. Basierend auf dieser Erkenntnis führen wir FreSca ein, eine einfache Methode, die die Skalierung der Steuerung unabhängig auf verschiedene Frequenzbänder im Fourier-Bereich anwendet. FreSca verbessert nachweislich bestehende Bildbearbeitungsmethoden ohne erneutes Training. Spannenderweise erstreckt sich seine Wirksamkeit auch auf Bildverständnisaufgaben wie Tiefenschätzung, was quantitative Verbesserungen über mehrere Datensätze hinweg liefert.
English
Diffusion models offer impressive controllability for image tasks, primarily
through noise predictions that encode task-specific information and
classifier-free guidance enabling adjustable scaling. This scaling mechanism
implicitly defines a ``scaling space'' whose potential for fine-grained
semantic manipulation remains underexplored. We investigate this space,
starting with inversion-based editing where the difference between
conditional/unconditional noise predictions carries key semantic information.
Our core contribution stems from a Fourier analysis of noise predictions,
revealing that its low- and high-frequency components evolve differently
throughout diffusion. Based on this insight, we introduce FreSca, a
straightforward method that applies guidance scaling independently to different
frequency bands in the Fourier domain. FreSca demonstrably enhances existing
image editing methods without retraining. Excitingly, its effectiveness extends
to image understanding tasks such as depth estimation, yielding quantitative
gains across multiple datasets.Summary
AI-Generated Summary