FreSca: Het Ontsluiten van de Schaalruimte in Diffusiemodellen
FreSca: Unveiling the Scaling Space in Diffusion Models
April 2, 2025
Auteurs: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI
Samenvatting
Diffusiemodellen bieden indrukwekkende aanpasbaarheid voor beeldtaken, voornamelijk
door ruisvoorspellingen die taakspecifieke informatie coderen en
classificatorvrije begeleiding die instelbare schaling mogelijk maakt. Dit schaalmechanisme
definieert impliciet een "schaalruimte" waarvan het potentieel voor fijnmazige
semantische manipulatie nog onvoldoende is onderzocht. Wij onderzoeken deze ruimte,
beginnend met inversiegebaseerde bewerking waarbij het verschil tussen
voorwaardelijke/onvoorwaardelijke ruisvoorspellingen cruciale semantische informatie bevat.
Onze kernbijdrage komt voort uit een Fourier-analyse van ruisvoorspellingen,
waaruit blijkt dat de lage- en hoge-frequentiecomponenten verschillend evolueren
tijdens het diffusieproces. Op basis van dit inzicht introduceren we FreSca, een
eenvoudige methode die begeleidingsschaling onafhankelijk toepast op verschillende
frequentiebanden in het Fourier-domein. FreSca verbetert aantoonbaar bestaande
beeldbewerkingsmethoden zonder hertraining. Opwindend is dat de effectiviteit ervan zich uitstrekt
tot beeldbegriptaken zoals diepteschatting, wat kwantitatieve verbeteringen oplevert
over meerdere datasets.
English
Diffusion models offer impressive controllability for image tasks, primarily
through noise predictions that encode task-specific information and
classifier-free guidance enabling adjustable scaling. This scaling mechanism
implicitly defines a ``scaling space'' whose potential for fine-grained
semantic manipulation remains underexplored. We investigate this space,
starting with inversion-based editing where the difference between
conditional/unconditional noise predictions carries key semantic information.
Our core contribution stems from a Fourier analysis of noise predictions,
revealing that its low- and high-frequency components evolve differently
throughout diffusion. Based on this insight, we introduce FreSca, a
straightforward method that applies guidance scaling independently to different
frequency bands in the Fourier domain. FreSca demonstrably enhances existing
image editing methods without retraining. Excitingly, its effectiveness extends
to image understanding tasks such as depth estimation, yielding quantitative
gains across multiple datasets.Summary
AI-Generated Summary