ChatPaper.aiChatPaper

Geglättete Energieführung: Lenkung von Diffusionsmodellen mit reduzierter Energiekrümmung der Aufmerksamkeit

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

August 1, 2024
papers.authors: Susung Hong
cs.AI

papers.abstract

Konditionale Diffusionsmodelle haben eine bemerkenswerte Erfolgsgeschichte bei der Generierung visueller Inhalte gezeigt, indem sie hochwertige Proben in verschiedenen Bereichen erzeugen, hauptsächlich aufgrund der leitlinienfreien Führung (CFG). Aktuelle Versuche, die Führung auf bedingungslose Modelle auszudehnen, haben sich auf heuristische Techniken verlassen, was zu suboptimaler Generierungsqualität und unbeabsichtigten Effekten geführt hat. In dieser Arbeit schlagen wir Smoothed Energy Guidance (SEG) vor, einen neuartigen Ansatz ohne Training und Bedingungen, der die energiebasierte Perspektive des Self-Attention-Mechanismus nutzt, um die Bildgenerierung zu verbessern. Indem wir die Energie des Self-Attention definieren, führen wir eine Methode ein, um die Krümmung der Energielandschaft der Aufmerksamkeit zu reduzieren und das Ergebnis als bedingungslose Vorhersage zu verwenden. Praktisch steuern wir die Krümmung der Energielandschaft, indem wir den Parameter des Gaußschen Kernels anpassen, während wir den Leitlinienmaßstabparameter konstant halten. Darüber hinaus präsentieren wir eine Abfrageverwischungsmethode, die äquivalent dazu ist, die gesamten Aufmerksamkeitsgewichte zu verwischen, ohne quadratische Komplexität in der Anzahl der Token zu verursachen. In unseren Experimenten erzielt SEG eine Pareto-Verbesserung sowohl in Bezug auf Qualität als auch auf die Reduzierung von Nebenwirkungen. Der Code ist verfügbar unter https://github.com/SusungHong/SEG-SDXL.
English
Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.
PDF82November 28, 2024