ChatPaper.aiChatPaper

Gladgestemde Energiebegeleiding: Begeleiding van Diffusiemodellen met Verminderde Energie Kromming van Aandacht

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

August 1, 2024
Auteurs: Susung Hong
cs.AI

Samenvatting

Conditionele diffusiemodellen hebben opmerkelijke successen geboekt in het genereren van visuele inhoud, waarbij ze hoogwaardige samples produceren in verschillende domeinen, grotendeels dankzij classifier-free guidance (CFG). Recente pogingen om guidance uit te breiden naar unconditionele modellen hebben vertrouwd op heuristische technieken, wat resulteerde in suboptimale generatiekwaliteit en ongewenste effecten. In dit werk stellen we Smoothed Energy Guidance (SEG) voor, een nieuwe trainings- en conditievrije benadering die gebruikmaakt van het energie-gebaseerde perspectief van het self-attention-mechanisme om beeldgeneratie te verbeteren. Door de energie van self-attention te definiëren, introduceren we een methode om de kromming van het energielandschap van aandacht te verminderen en gebruiken we de uitvoer als de unconditionele voorspelling. In de praktijk controleren we de kromming van het energielandschap door de Gaussische kernelparameter aan te passen, terwijl de guidance-schaalparameter vast blijft. Daarnaast presenteren we een query-vervagingmethode die equivalent is aan het vervagen van de volledige aandachtgewichten zonder kwadratische complexiteit in het aantal tokens te veroorzaken. In onze experimenten behaalt SEG een Pareto-verbetering in zowel kwaliteit als de vermindering van bijwerkingen. De code is beschikbaar op https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.
PDF72February 7, 2026