Gladgestemde Energiebegeleiding: Begeleiding van Diffusiemodellen met Verminderde Energie Kromming van Aandacht
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention
August 1, 2024
Auteurs: Susung Hong
cs.AI
Samenvatting
Conditionele diffusiemodellen hebben opmerkelijke successen geboekt in het genereren van visuele inhoud, waarbij ze hoogwaardige samples produceren in verschillende domeinen, grotendeels dankzij classifier-free guidance (CFG). Recente pogingen om guidance uit te breiden naar unconditionele modellen hebben vertrouwd op heuristische technieken, wat resulteerde in suboptimale generatiekwaliteit en ongewenste effecten. In dit werk stellen we Smoothed Energy Guidance (SEG) voor, een nieuwe trainings- en conditievrije benadering die gebruikmaakt van het energie-gebaseerde perspectief van het self-attention-mechanisme om beeldgeneratie te verbeteren. Door de energie van self-attention te definiëren, introduceren we een methode om de kromming van het energielandschap van aandacht te verminderen en gebruiken we de uitvoer als de unconditionele voorspelling. In de praktijk controleren we de kromming van het energielandschap door de Gaussische kernelparameter aan te passen, terwijl de guidance-schaalparameter vast blijft. Daarnaast presenteren we een query-vervagingmethode die equivalent is aan het vervagen van de volledige aandachtgewichten zonder kwadratische complexiteit in het aantal tokens te veroorzaken. In onze experimenten behaalt SEG een Pareto-verbetering in zowel kwaliteit als de vermindering van bijwerkingen. De code is beschikbaar op https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content
generation, producing high-quality samples across various domains, largely due
to classifier-free guidance (CFG). Recent attempts to extend guidance to
unconditional models have relied on heuristic techniques, resulting in
suboptimal generation quality and unintended effects. In this work, we propose
Smoothed Energy Guidance (SEG), a novel training- and condition-free approach
that leverages the energy-based perspective of the self-attention mechanism to
enhance image generation. By defining the energy of self-attention, we
introduce a method to reduce the curvature of the energy landscape of attention
and use the output as the unconditional prediction. Practically, we control the
curvature of the energy landscape by adjusting the Gaussian kernel parameter
while keeping the guidance scale parameter fixed. Additionally, we present a
query blurring method that is equivalent to blurring the entire attention
weights without incurring quadratic complexity in the number of tokens. In our
experiments, SEG achieves a Pareto improvement in both quality and the
reduction of side effects. The code is available at
https://github.com/SusungHong/SEG-SDXL.