ChatPaper.aiChatPaper

FreSca: Revelando el Espacio de Escalado en Modelos de Difusión

FreSca: Unveiling the Scaling Space in Diffusion Models

April 2, 2025
Autores: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI

Resumen

Los modelos de difusión ofrecen un control impresionante para tareas de imagen, principalmente a través de predicciones de ruido que codifican información específica de la tarea y una guía libre de clasificadores que permite un escalado ajustable. Este mecanismo de escalado define implícitamente un "espacio de escalado", cuyo potencial para la manipulación semántica de grano fino sigue siendo poco explorado. Investigamos este espacio, comenzando con la edición basada en inversión, donde la diferencia entre las predicciones de ruido condicionales e incondicionales contiene información semántica clave. Nuestra contribución principal surge de un análisis de Fourier de las predicciones de ruido, revelando que sus componentes de baja y alta frecuencia evolucionan de manera diferente a lo largo de la difusión. Basándonos en esta idea, presentamos FreSca, un método sencillo que aplica el escalado de guía de forma independiente a diferentes bandas de frecuencia en el dominio de Fourier. FreSca mejora notablemente los métodos existentes de edición de imágenes sin necesidad de reentrenamiento. De manera emocionante, su efectividad se extiende a tareas de comprensión de imágenes, como la estimación de profundidad, obteniendo ganancias cuantitativas en múltiples conjuntos de datos.
English
Diffusion models offer impressive controllability for image tasks, primarily through noise predictions that encode task-specific information and classifier-free guidance enabling adjustable scaling. This scaling mechanism implicitly defines a ``scaling space'' whose potential for fine-grained semantic manipulation remains underexplored. We investigate this space, starting with inversion-based editing where the difference between conditional/unconditional noise predictions carries key semantic information. Our core contribution stems from a Fourier analysis of noise predictions, revealing that its low- and high-frequency components evolve differently throughout diffusion. Based on this insight, we introduce FreSca, a straightforward method that applies guidance scaling independently to different frequency bands in the Fourier domain. FreSca demonstrably enhances existing image editing methods without retraining. Excitingly, its effectiveness extends to image understanding tasks such as depth estimation, yielding quantitative gains across multiple datasets.

Summary

AI-Generated Summary

PDF192April 4, 2025