SCEdit: Generazione Efficiente e Controllabile di Immagini Diffuse tramite Modifica delle Connessioni Saltate

Abstract

I modelli di diffusione di immagini sono stati utilizzati in vari compiti, come la generazione di immagini da testo e la sintesi controllata di immagini. Ricerche recenti hanno introdotto metodi di tuning che apportano aggiustamenti sottili ai modelli originali, ottenendo risultati promettenti in specifici adattamenti di modelli generativi di diffusione di base. Piuttosto che modificare la struttura principale del modello di diffusione, approfondiamo il ruolo delle connessioni skip nella U-Net e riveliamo che le caratteristiche gerarchiche che aggregano informazioni a lunga distanza tra encoder e decoder hanno un impatto significativo sul contenuto e sulla qualità della generazione di immagini. Sulla base di questa osservazione, proponiamo un framework efficiente di tuning generativo, denominato SCEdit, che integra e modifica le connessioni skip utilizzando un modulo di tuning leggero chiamato SC-Tuner. Inoltre, il framework proposto consente un'estensione diretta alla sintesi controllata di immagini iniettando diverse condizioni con il Controllable SC-Tuner, semplificando e unificando la progettazione della rete per input multi-condizione. Il nostro SCEdit riduce sostanzialmente i parametri di addestramento, l'uso della memoria e il costo computazionale grazie ai suoi tuner leggeri, con la propagazione all'indietro che passa solo ai blocchi del decoder. Esperimenti estensivi condotti su compiti di generazione di immagini da testo e sintesi controllata di immagini dimostrano la superiorità del nostro metodo in termini di efficienza e prestazioni. Pagina del progetto: https://scedit.github.io/

English

Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: https://scedit.github.io/

SCEdit: Generazione Efficiente e Controllabile di Immagini Diffuse tramite Modifica delle Connessioni Saltate

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

Abstract

Support