FreSca: Revelando el Espacio de Escalado en Modelos de Difusión
FreSca: Unveiling the Scaling Space in Diffusion Models
April 2, 2025
Autores: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI
Resumen
Los modelos de difusión ofrecen un control impresionante para tareas de imagen, principalmente a través de predicciones de ruido que codifican información específica de la tarea y una guía libre de clasificadores que permite un escalado ajustable. Este mecanismo de escalado define implícitamente un "espacio de escalado", cuyo potencial para la manipulación semántica de grano fino sigue siendo poco explorado. Investigamos este espacio, comenzando con la edición basada en inversión, donde la diferencia entre las predicciones de ruido condicionales e incondicionales contiene información semántica clave. Nuestra contribución principal surge de un análisis de Fourier de las predicciones de ruido, revelando que sus componentes de baja y alta frecuencia evolucionan de manera diferente a lo largo de la difusión. Basándonos en esta idea, presentamos FreSca, un método sencillo que aplica el escalado de guía de forma independiente a diferentes bandas de frecuencia en el dominio de Fourier. FreSca mejora notablemente los métodos existentes de edición de imágenes sin necesidad de reentrenamiento. De manera emocionante, su efectividad se extiende a tareas de comprensión de imágenes, como la estimación de profundidad, obteniendo ganancias cuantitativas en múltiples conjuntos de datos.
English
Diffusion models offer impressive controllability for image tasks, primarily
through noise predictions that encode task-specific information and
classifier-free guidance enabling adjustable scaling. This scaling mechanism
implicitly defines a ``scaling space'' whose potential for fine-grained
semantic manipulation remains underexplored. We investigate this space,
starting with inversion-based editing where the difference between
conditional/unconditional noise predictions carries key semantic information.
Our core contribution stems from a Fourier analysis of noise predictions,
revealing that its low- and high-frequency components evolve differently
throughout diffusion. Based on this insight, we introduce FreSca, a
straightforward method that applies guidance scaling independently to different
frequency bands in the Fourier domain. FreSca demonstrably enhances existing
image editing methods without retraining. Excitingly, its effectiveness extends
to image understanding tasks such as depth estimation, yielding quantitative
gains across multiple datasets.Summary
AI-Generated Summary