Guide-and-Rescale: Selbstführungsmechanismus für effektive abstimmungsfreie Bearbeitung von RealbildernGuide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free
Real Image Editing
Trotz der jüngsten Fortschritte bei groß angelegten Text-zu-Bild-Generierungsmodellen bleibt die Manipulation realer Bilder mit diesen Modellen eine herausfordernde Aufgabe. Die Hauptbeschränkungen bestehender Bearbeitungsmethoden bestehen darin, dass sie entweder keine konsistente Qualität bei einer Vielzahl von Bildbearbeitungen erreichen oder zeitaufwändige Hyperparameteranpassungen oder Feinabstimmungen des Diffusionsmodells erfordern, um das bildspezifische Erscheinungsbild des Eingabebildes zu bewahren. Wir schlagen einen neuartigen Ansatz vor, der auf einem modifizierten Diffusionssamplingprozess über den Leitmechanismus basiert. In dieser Arbeit untersuchen wir die Selbstleit-Technik, um die Gesamtstruktur des Eingabebildes und das Erscheinungsbild lokaler Regionen, die nicht bearbeitet werden sollen, zu bewahren. Insbesondere führen wir explizit layoutbewahrende Energiefunktionen ein, die darauf abzielen, die lokalen und globalen Strukturen des Quellbildes zu erhalten. Zusätzlich schlagen wir einen Rauschskalierungsmechanismus vor, der die Rauschverteilung bewahrt, indem er die Normen der klassifikatorfreien Führung und unserer vorgeschlagenen Führer während der Generierung ausbalanciert. Ein solcher Leitansatz erfordert weder eine Feinabstimmung des Diffusionsmodells noch einen exakten Inversionsprozess. Dadurch bietet die vorgeschlagene Methode einen schnellen und hochwertigen Bearbeitungsmechanismus. In unseren Experimenten zeigen wir durch menschliche Bewertung und quantitative Analyse, dass die vorgeschlagene Methode gewünschte Bearbeitungen ermöglicht, die von Menschen bevorzugt werden und auch einen besseren Kompromiss zwischen Bearbeitungsqualität und Bewahrung des Originalbildes erreichen. Unser Code ist verfügbar unter https://github.com/FusionBrainLab/Guide-and-Rescale.