ChatPaper.aiChatPaper

Élimination de la Sursaturation et des Artéfacts des Échelles de Guidage Élevées dans les Modèles de Diffusion

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

October 3, 2024
Auteurs: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI

Résumé

Le guidage sans classificateur (CFG) est crucial pour améliorer à la fois la qualité de génération et l'alignement entre la condition d'entrée et la sortie finale dans les modèles de diffusion. Alors qu'une échelle de guidage élevée est généralement nécessaire pour améliorer ces aspects, elle entraîne également une surcharge et des artefacts irréalistes. Dans cet article, nous revisitons la règle de mise à jour du CFG et introduisons des modifications pour résoudre ce problème. Nous décomposons d'abord le terme de mise à jour dans le CFG en composantes parallèles et orthogonales par rapport à la prédiction du modèle conditionnel et observons que la composante parallèle provoque principalement une surcharge, tandis que la composante orthogonale améliore la qualité de l'image. En conséquence, nous proposons de pondérer à la baisse la composante parallèle pour obtenir des générations de haute qualité sans surcharge. De plus, nous établissons un lien entre le CFG et la montée de gradient et introduisons une nouvelle méthode de mise à l'échelle et de momentum pour la règle de mise à jour du CFG basée sur cette compréhension. Notre approche, appelée guidage projeté adaptatif (APG), conserve les avantages d'amélioration de la qualité du CFG tout en permettant l'utilisation d'échelles de guidage plus élevées sans surcharge. L'APG est facile à mettre en œuvre et n'introduit pratiquement aucun surcoût computationnel supplémentaire dans le processus d'échantillonnage. À travers des expériences approfondies, nous démontrons que l'APG est compatible avec divers modèles de diffusion conditionnelle et échantillonneurs, conduisant à une amélioration des scores FID, de rappel et de saturation tout en maintenant une précision comparable au CFG, faisant de notre méthode une alternative plug-and-play supérieure au guidage sans classificateur standard.
English
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.

Summary

AI-Generated Summary

PDF314November 16, 2024