SCEdit : Génération efficace et contrôlable d'images par diffusion via l'édition de connexions sautées

papers.abstract

Les modèles de diffusion d'images ont été utilisés dans diverses tâches, telles que la génération d'images à partir de texte et la synthèse d'images contrôlable. Des recherches récentes ont introduit des méthodes de réglage qui apportent des ajustements subtils aux modèles originaux, obtenant des résultats prometteurs dans des adaptations spécifiques des modèles génératifs de diffusion de base. Plutôt que de modifier l'architecture principale du modèle de diffusion, nous explorons le rôle des connexions résiduelles (skip connections) dans l'U-Net et révélons que les caractéristiques hiérarchiques agrégeant des informations à longue distance entre l'encodeur et le décodeur ont un impact significatif sur le contenu et la qualité de la génération d'images. Sur la base de cette observation, nous proposons un cadre de réglage génératif efficace, baptisé SCEdit, qui intègre et modifie les connexions résiduelles à l'aide d'un module de réglage léger nommé SC-Tuner. De plus, le cadre proposé permet une extension directe à la synthèse d'images contrôlable en injectant différentes conditions avec le Controllable SC-Tuner, simplifiant et unifiant la conception du réseau pour des entrées multi-conditions. Notre SCEdit réduit considérablement les paramètres d'entraînement, l'utilisation de la mémoire et les coûts de calcul grâce à ses tuners légers, avec une propagation rétroactive ne passant que par les blocs du décodeur. Des expériences approfondies menées sur des tâches de génération d'images à partir de texte et de synthèse d'images contrôlable démontrent la supériorité de notre méthode en termes d'efficacité et de performance. Page du projet : https://scedit.github.io/

English

Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: https://scedit.github.io/

SCEdit : Génération efficace et contrôlable d'images par diffusion via l'édition de connexions sautées

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

papers.abstract

Support