ChatPaper.aiChatPaper

Beseitigung von Übersättigung und Artefakten hoher Führungsskalen in Diffusionsmodellen

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

October 3, 2024
Autoren: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI

Zusammenfassung

Die leitlinienfreie Führung (LFF) ist entscheidend für die Verbesserung sowohl der Generierungsqualität als auch der Ausrichtung zwischen der Eingangsbedingung und dem endgültigen Output in Diffusionsmodellen. Während ein hoher Führungsskala im Allgemeinen erforderlich ist, um diese Aspekte zu verbessern, führt dies auch zu Übersättigung und unrealistischen Artefakten. In diesem Artikel überarbeiten wir die Aktualisierungsregel der LFF und führen Modifikationen ein, um dieses Problem anzugehen. Wir zerlegen zunächst den Aktualisierungsterm in der LFF in parallele und orthogonale Komponenten im Hinblick auf die bedingte Modellvorhersage und stellen fest, dass die parallele Komponente hauptsächlich zu Übersättigung führt, während die orthogonale Komponente die Bildqualität verbessert. Dementsprechend schlagen wir vor, die parallele Komponente abzuschwächen, um hochwertige Generierungen ohne Übersättigung zu erreichen. Darüber hinaus stellen wir eine Verbindung zwischen LFF und Gradientenaufstieg her und führen eine neue Neuskalierung und Momentum-Methode für die Aktualisierungsregel der LFF basierend auf dieser Erkenntnis ein. Unser Ansatz, genannt adaptive projizierte Führung (APF), behält die qualitätssteigernden Vorteile der LFF bei und ermöglicht die Verwendung höherer Führungsskalen ohne Übersättigung. APF ist einfach umzusetzen und führt praktisch zu keiner zusätzlichen Rechenlast im Probenahmeprozess. Durch umfangreiche Experimente zeigen wir, dass APF mit verschiedenen bedingten Diffusionsmodellen und Samplern kompatibel ist, was zu verbesserten FID-, Recall- und Sättigungswerten führt, während die Präzision vergleichbar mit der LFF beibehalten wird. Dies macht unsere Methode zu einer überlegenen Plug-and-Play-Alternative zur Standard leitlinienfreien Führung.
English
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.

Summary

AI-Generated Summary

PDF314November 16, 2024