FreSca: Исследование пространства масштабирования в диффузионных моделях
FreSca: Unveiling the Scaling Space in Diffusion Models
April 2, 2025
Авторы: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI
Аннотация
Диффузионные модели демонстрируют впечатляющую управляемость в задачах обработки изображений, в основном благодаря предсказаниям шума, которые кодируют информацию, специфичную для задачи, и механизму классификатор-фри гида, позволяющему регулировать масштабирование. Этот механизм масштабирования неявно определяет «пространство масштабирования», потенциал которого для тонкой семантической манипуляции остается недостаточно изученным. Мы исследуем это пространство, начиная с редактирования на основе инверсии, где разница между условными и безусловными предсказаниями шума несет ключевую семантическую информацию. Наш основной вклад заключается в анализе Фурье предсказаний шума, который показывает, что их низко- и высокочастотные компоненты развиваются по-разному в процессе диффузии. На основе этого наблюдения мы представляем FreSca — простой метод, который применяет масштабирование гида независимо к различным частотным полосам в частотной области. FreSca заметно улучшает существующие методы редактирования изображений без необходимости переобучения. Удивительно, что его эффективность распространяется и на задачи понимания изображений, такие как оценка глубины, приводя к количественным улучшениям на нескольких наборах данных.
English
Diffusion models offer impressive controllability for image tasks, primarily
through noise predictions that encode task-specific information and
classifier-free guidance enabling adjustable scaling. This scaling mechanism
implicitly defines a ``scaling space'' whose potential for fine-grained
semantic manipulation remains underexplored. We investigate this space,
starting with inversion-based editing where the difference between
conditional/unconditional noise predictions carries key semantic information.
Our core contribution stems from a Fourier analysis of noise predictions,
revealing that its low- and high-frequency components evolve differently
throughout diffusion. Based on this insight, we introduce FreSca, a
straightforward method that applies guidance scaling independently to different
frequency bands in the Fourier domain. FreSca demonstrably enhances existing
image editing methods without retraining. Excitingly, its effectiveness extends
to image understanding tasks such as depth estimation, yielding quantitative
gains across multiple datasets.Summary
AI-Generated Summary