SCEdit: Effiziente und steuerbare Bilddiffusionsgenerierung durch Skip-Connection-Bearbeitung
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
December 18, 2023
Autoren: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI
Zusammenfassung
Bilddiffusionsmodelle wurden in verschiedenen Aufgaben eingesetzt, wie beispielsweise der Text-zu-Bild-Generierung und der kontrollierbaren Bildsynthese. Aktuelle Forschungen haben Feinabstimmungsmethoden eingeführt, die subtile Anpassungen an den ursprünglichen Modellen vornehmen und vielversprechende Ergebnisse bei spezifischen Anpassungen von grundlegenden generativen Diffusionsmodellen erzielen. Anstatt das Hauptgerüst des Diffusionsmodells zu verändern, untersuchen wir die Rolle der Skip-Verbindung in U-Net und zeigen, dass hierarchische Merkmale, die langreichweitige Informationen zwischen Encoder und Decoder aggregieren, einen erheblichen Einfluss auf den Inhalt und die Qualität der Bildgenerierung haben. Basierend auf dieser Beobachtung schlagen wir ein effizientes generatives Feinabstimmungsframework vor, genannt SCEdit, das Skip-Verbindungen integriert und bearbeitet, indem ein leichtgewichtiges Feinabstimmungsmodul namens SC-Tuner verwendet wird. Darüber hinaus ermöglicht das vorgeschlagene Framework eine einfache Erweiterung zur kontrollierbaren Bildsynthese, indem verschiedene Bedingungen mit dem Controllable SC-Tuner injiziert werden, was das Netzwerkdesign für Multi-Bedingungs-Eingaben vereinfacht und vereinheitlicht. Unser SCEdit reduziert erheblich die Trainingsparameter, den Speicherbedarf und die Rechenkosten aufgrund seiner leichtgewichtigen Tuner, wobei die Rückwärtspropagation nur zu den Decoder-Blöcken durchgeführt wird. Umfangreiche Experimente, die für Aufgaben der Text-zu-Bild-Generierung und der kontrollierbaren Bildsynthese durchgeführt wurden, demonstrieren die Überlegenheit unserer Methode in Bezug auf Effizienz und Leistung. Projektseite: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as
text-to-image generation and controllable image synthesis. Recent research has
introduced tuning methods that make subtle adjustments to the original models,
yielding promising results in specific adaptations of foundational generative
diffusion models. Rather than modifying the main backbone of the diffusion
model, we delve into the role of skip connection in U-Net and reveal that
hierarchical features aggregating long-distance information across encoder and
decoder make a significant impact on the content and quality of image
generation. Based on the observation, we propose an efficient generative tuning
framework, dubbed SCEdit, which integrates and edits Skip Connection using a
lightweight tuning module named SC-Tuner. Furthermore, the proposed framework
allows for straightforward extension to controllable image synthesis by
injecting different conditions with Controllable SC-Tuner, simplifying and
unifying the network design for multi-condition inputs. Our SCEdit
substantially reduces training parameters, memory usage, and computational
expense due to its lightweight tuners, with backward propagation only passing
to the decoder blocks. Extensive experiments conducted on text-to-image
generation and controllable image synthesis tasks demonstrate the superiority
of our method in terms of efficiency and performance. Project page:
https://scedit.github.io/