FreSca: Исследование пространства масштабирования в диффузионных моделях

Аннотация

Диффузионные модели демонстрируют впечатляющую управляемость в задачах обработки изображений, в основном благодаря предсказаниям шума, которые кодируют информацию, специфичную для задачи, и механизму классификатор-фри гида, позволяющему регулировать масштабирование. Этот механизм масштабирования неявно определяет «пространство масштабирования», потенциал которого для тонкой семантической манипуляции остается недостаточно изученным. Мы исследуем это пространство, начиная с редактирования на основе инверсии, где разница между условными и безусловными предсказаниями шума несет ключевую семантическую информацию. Наш основной вклад заключается в анализе Фурье предсказаний шума, который показывает, что их низко- и высокочастотные компоненты развиваются по-разному в процессе диффузии. На основе этого наблюдения мы представляем FreSca — простой метод, который применяет масштабирование гида независимо к различным частотным полосам в частотной области. FreSca заметно улучшает существующие методы редактирования изображений без необходимости переобучения. Удивительно, что его эффективность распространяется и на задачи понимания изображений, такие как оценка глубины, приводя к количественным улучшениям на нескольких наборах данных.

English

Diffusion models offer impressive controllability for image tasks, primarily through noise predictions that encode task-specific information and classifier-free guidance enabling adjustable scaling. This scaling mechanism implicitly defines a ``scaling space'' whose potential for fine-grained semantic manipulation remains underexplored. We investigate this space, starting with inversion-based editing where the difference between conditional/unconditional noise predictions carries key semantic information. Our core contribution stems from a Fourier analysis of noise predictions, revealing that its low- and high-frequency components evolve differently throughout diffusion. Based on this insight, we introduce FreSca, a straightforward method that applies guidance scaling independently to different frequency bands in the Fourier domain. FreSca demonstrably enhances existing image editing methods without retraining. Excitingly, its effectiveness extends to image understanding tasks such as depth estimation, yielding quantitative gains across multiple datasets.

FreSca: Исследование пространства масштабирования в диффузионных моделях

FreSca: Unveiling the Scaling Space in Diffusion Models

Аннотация

Support