Guida Energetica Smussata: Orientare i Modelli di Diffusione con Ridotta Curvatura Energetica dell'Attenzione
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention
August 1, 2024
Autori: Susung Hong
cs.AI
Abstract
I modelli di diffusione condizionata hanno dimostrato un notevole successo nella generazione di contenuti visivi, producendo campioni di alta qualità in vari domini, principalmente grazie alla guida senza classificatore (CFG). I recenti tentativi di estendere la guida ai modelli non condizionati si sono basati su tecniche euristiche, risultando in una qualità di generazione subottimale e in effetti indesiderati. In questo lavoro, proponiamo la Guida Energetica Smussata (SEG), un approccio innovativo che non richiede addestramento né condizioni e sfrutta la prospettiva basata sull'energia del meccanismo di self-attention per migliorare la generazione di immagini. Definendo l'energia del self-attention, introduciamo un metodo per ridurre la curvatura del paesaggio energetico dell'attenzione e utilizziamo l'output come previsione non condizionata. Praticamente, controlliamo la curvatura del paesaggio energetico regolando il parametro del kernel gaussiano mentre manteniamo fisso il parametro della scala di guida. Inoltre, presentiamo un metodo di sfocatura delle query che equivale a sfocare l'intero peso dell'attenzione senza incorrere in una complessità quadratica nel numero di token. Nei nostri esperimenti, SEG ottiene un miglioramento di Pareto sia nella qualità che nella riduzione degli effetti collaterali. Il codice è disponibile all'indirizzo https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content
generation, producing high-quality samples across various domains, largely due
to classifier-free guidance (CFG). Recent attempts to extend guidance to
unconditional models have relied on heuristic techniques, resulting in
suboptimal generation quality and unintended effects. In this work, we propose
Smoothed Energy Guidance (SEG), a novel training- and condition-free approach
that leverages the energy-based perspective of the self-attention mechanism to
enhance image generation. By defining the energy of self-attention, we
introduce a method to reduce the curvature of the energy landscape of attention
and use the output as the unconditional prediction. Practically, we control the
curvature of the energy landscape by adjusting the Gaussian kernel parameter
while keeping the guidance scale parameter fixed. Additionally, we present a
query blurring method that is equivalent to blurring the entire attention
weights without incurring quadratic complexity in the number of tokens. In our
experiments, SEG achieves a Pareto improvement in both quality and the
reduction of side effects. The code is available at
https://github.com/SusungHong/SEG-SDXL.