ChatPaper.aiChatPaper

Guidance par Énergie Lissée : Orienter les Modèles de Diffusion avec une Courbure d'Attention Réduite

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

August 1, 2024
Auteurs: Susung Hong
cs.AI

Résumé

Les modèles de diffusion conditionnelle ont démontré un succès remarquable dans la génération de contenu visuel, produisant des échantillons de haute qualité dans divers domaines, en grande partie grâce à l'orientation sans classifieur (CFG). Les tentatives récentes pour étendre cette orientation aux modèles non conditionnels se sont appuyées sur des techniques heuristiques, entraînant une qualité de génération sous-optimale et des effets indésirables. Dans ce travail, nous proposons l'Orientation Énergétique Lissée (SEG), une nouvelle approche sans entraînement ni condition qui exploite la perspective énergétique du mécanisme d'auto-attention pour améliorer la génération d'images. En définissant l'énergie de l'auto-attention, nous introduisons une méthode pour réduire la courbure du paysage énergétique de l'attention et utilisons la sortie comme prédiction non conditionnelle. Pratiquement, nous contrôlons la courbure du paysage énergétique en ajustant le paramètre du noyau gaussien tout en gardant fixe le paramètre d'échelle d'orientation. De plus, nous présentons une méthode de floutage des requêtes qui équivaut à flouter l'ensemble des poids d'attention sans engendrer une complexité quadratique en fonction du nombre de tokens. Dans nos expériences, SEG réalise une amélioration de Pareto à la fois en qualité et en réduction des effets secondaires. Le code est disponible à l'adresse https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.

Summary

AI-Generated Summary

PDF72November 28, 2024