ChatPaper.aiChatPaper

FreSca : Exploration de l'espace de mise à l'échelle dans les modèles de diffusion

FreSca: Unveiling the Scaling Space in Diffusion Models

April 2, 2025
Auteurs: Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu
cs.AI

Résumé

Les modèles de diffusion offrent un contrôle impressionnant pour les tâches de traitement d'images, principalement grâce à des prédictions de bruit qui encodent des informations spécifiques à la tâche et à un guidage sans classificateur permettant un ajustement d'échelle. Ce mécanisme d'échelle définit implicitement un « espace d'échelle » dont le potentiel pour une manipulation sémantique fine reste sous-exploré. Nous étudions cet espace, en commençant par l'édition basée sur l'inversion où la différence entre les prédictions de bruit conditionnelles et non conditionnelles porte des informations sémantiques clés. Notre contribution principale découle d'une analyse de Fourier des prédictions de bruit, révélant que ses composantes de basse et haute fréquence évoluent différemment tout au long de la diffusion. Sur la base de cette observation, nous introduisons FreSca, une méthode simple qui applique l'échelle de guidage indépendamment à différentes bandes de fréquence dans le domaine de Fourier. FreSca améliore de manière démontrable les méthodes d'édition d'images existantes sans nécessiter de réentraînement. Fait intéressant, son efficacité s'étend également aux tâches de compréhension d'images, telles que l'estimation de profondeur, produisant des gains quantitatifs sur plusieurs jeux de données.
English
Diffusion models offer impressive controllability for image tasks, primarily through noise predictions that encode task-specific information and classifier-free guidance enabling adjustable scaling. This scaling mechanism implicitly defines a ``scaling space'' whose potential for fine-grained semantic manipulation remains underexplored. We investigate this space, starting with inversion-based editing where the difference between conditional/unconditional noise predictions carries key semantic information. Our core contribution stems from a Fourier analysis of noise predictions, revealing that its low- and high-frequency components evolve differently throughout diffusion. Based on this insight, we introduce FreSca, a straightforward method that applies guidance scaling independently to different frequency bands in the Fourier domain. FreSca demonstrably enhances existing image editing methods without retraining. Excitingly, its effectiveness extends to image understanding tasks such as depth estimation, yielding quantitative gains across multiple datasets.

Summary

AI-Generated Summary

PDF192April 4, 2025