ChatPaper.aiChatPaper

Guía de Energía Suavizada: Guiando Modelos de Difusión con Curvatura de Atención de Energía Reducida

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

August 1, 2024
Autores: Susung Hong
cs.AI

Resumen

Los modelos de difusión condicional han demostrado un éxito notable en la generación de contenido visual, produciendo muestras de alta calidad en varios dominios, en gran parte debido a la orientación sin clasificador (CFG, por sus siglas en inglés). Los intentos recientes de extender la orientación a modelos incondicionales han dependido de técnicas heurísticas, lo que ha dado como resultado una calidad de generación subóptima y efectos no deseados. En este trabajo, proponemos la Guía de Energía Suavizada (SEG), un enfoque novedoso sin entrenamiento ni condición que aprovecha la perspectiva basada en energía del mecanismo de autoatención para mejorar la generación de imágenes. Al definir la energía de la autoatención, introducimos un método para reducir la curvatura del paisaje de energía de la atención y usar la salida como predicción incondicional. En la práctica, controlamos la curvatura del paisaje de energía ajustando el parámetro del núcleo gaussiano manteniendo fijo el parámetro de escala de orientación. Además, presentamos un método de difuminación de consultas que es equivalente a difuminar todos los pesos de atención sin incurrir en complejidad cuadrática en el número de tokens. En nuestros experimentos, SEG logra una mejora de Pareto tanto en calidad como en la reducción de efectos secundarios. El código está disponible en https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.

Summary

AI-Generated Summary

PDF72November 28, 2024