SCEdit : Génération efficace et contrôlable d'images par diffusion via l'édition de connexions sautées
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
December 18, 2023
Auteurs: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI
Résumé
Les modèles de diffusion d'images ont été utilisés dans diverses tâches, telles que la génération d'images à partir de texte et la synthèse d'images contrôlable. Des recherches récentes ont introduit des méthodes de réglage qui apportent des ajustements subtils aux modèles originaux, obtenant des résultats prometteurs dans des adaptations spécifiques des modèles génératifs de diffusion de base. Plutôt que de modifier l'architecture principale du modèle de diffusion, nous explorons le rôle des connexions résiduelles (skip connections) dans l'U-Net et révélons que les caractéristiques hiérarchiques agrégeant des informations à longue distance entre l'encodeur et le décodeur ont un impact significatif sur le contenu et la qualité de la génération d'images. Sur la base de cette observation, nous proposons un cadre de réglage génératif efficace, baptisé SCEdit, qui intègre et modifie les connexions résiduelles à l'aide d'un module de réglage léger nommé SC-Tuner. De plus, le cadre proposé permet une extension directe à la synthèse d'images contrôlable en injectant différentes conditions avec le Controllable SC-Tuner, simplifiant et unifiant la conception du réseau pour des entrées multi-conditions. Notre SCEdit réduit considérablement les paramètres d'entraînement, l'utilisation de la mémoire et les coûts de calcul grâce à ses tuners légers, avec une propagation rétroactive ne passant que par les blocs du décodeur. Des expériences approfondies menées sur des tâches de génération d'images à partir de texte et de synthèse d'images contrôlable démontrent la supériorité de notre méthode en termes d'efficacité et de performance. Page du projet : https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as
text-to-image generation and controllable image synthesis. Recent research has
introduced tuning methods that make subtle adjustments to the original models,
yielding promising results in specific adaptations of foundational generative
diffusion models. Rather than modifying the main backbone of the diffusion
model, we delve into the role of skip connection in U-Net and reveal that
hierarchical features aggregating long-distance information across encoder and
decoder make a significant impact on the content and quality of image
generation. Based on the observation, we propose an efficient generative tuning
framework, dubbed SCEdit, which integrates and edits Skip Connection using a
lightweight tuning module named SC-Tuner. Furthermore, the proposed framework
allows for straightforward extension to controllable image synthesis by
injecting different conditions with Controllable SC-Tuner, simplifying and
unifying the network design for multi-condition inputs. Our SCEdit
substantially reduces training parameters, memory usage, and computational
expense due to its lightweight tuners, with backward propagation only passing
to the decoder blocks. Extensive experiments conducted on text-to-image
generation and controllable image synthesis tasks demonstrate the superiority
of our method in terms of efficiency and performance. Project page:
https://scedit.github.io/