ChatPaper.aiChatPaper

Сглаженное энергетическое руководство: Управление моделями диффузии с сниженной энергетической кривизной внимания

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

August 1, 2024
Авторы: Susung Hong
cs.AI

Аннотация

Условные модели диффузии показали выдающийся успех в генерации визуального контента, создавая высококачественные образцы в различных областях, в значительной степени благодаря руководству без классификатора (CFG). Недавние попытки расширить руководство на безусловные модели полагались на эвристические методы, что привело к неоптимальному качеству генерации и непредвиденным эффектам. В данной работе мы предлагаем метод Сглаженного Энергетического Руководства (SEG), новый подход к обучению без условий, который использует энергетическую перспективу механизма самовнимания для улучшения генерации изображений. Определяя энергию самовнимания, мы представляем метод для уменьшения кривизны энергетического ландшафта внимания и используем вывод в качестве безусловного предсказания. Практически мы контролируем кривизну энергетического ландшафта путем настройки параметра гауссовского ядра, оставляя параметр масштаба руководства неизменным. Кроме того, мы представляем метод размытия запроса, эквивалентный размытию всех весов внимания без квадратичной сложности по числу токенов. В наших экспериментах SEG достигает улучшения Парето как по качеству, так и по снижению побочных эффектов. Код доступен по ссылке https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.

Summary

AI-Generated Summary

PDF72November 28, 2024