ChatPaper.aiChatPaper

Orientação de Energia Suavizada: Orientando Modelos de Difusão com Curvatura de Energia Reduzida da Atenção

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

August 1, 2024
Autores: Susung Hong
cs.AI

Resumo

Os modelos de difusão condicional têm demonstrado um sucesso notável na geração de conteúdo visual, produzindo amostras de alta qualidade em vários domínios, em grande parte devido à orientação sem classificador (CFG). Tentativas recentes de estender a orientação a modelos incondicionais têm dependido de técnicas heurísticas, resultando em qualidade de geração subótima e efeitos não intencionais. Neste trabalho, propomos Orientação de Energia Suavizada (SEG), uma abordagem inovadora livre de treinamento e condição que aproveita a perspectiva baseada em energia do mecanismo de autoatenção para aprimorar a geração de imagens. Ao definir a energia da autoatenção, introduzimos um método para reduzir a curvatura do panorama de energia da atenção e usar a saída como a previsão incondicional. Na prática, controlamos a curvatura do panorama de energia ajustando o parâmetro do kernel gaussiano, mantendo o parâmetro de escala de orientação fixo. Além disso, apresentamos um método de desfoque de consulta que é equivalente a desfocar todos os pesos de atenção sem incorrer em complexidade quadrática no número de tokens. Em nossos experimentos, SEG alcança uma melhoria de Pareto tanto na qualidade quanto na redução de efeitos colaterais. O código está disponível em https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.

Summary

AI-Generated Summary

PDF72November 28, 2024