ChatPaper.aiChatPaper

SCEdit: Efficiënte en controleerbare beelddiffusiegeneratie via Skip Connection Editing

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

December 18, 2023
Auteurs: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI

Samenvatting

Beelddiffusiemodellen zijn ingezet bij diverse taken, zoals tekst-naar-beeldgeneratie en controleerbare beeld synthese. Recent onderzoek heeft afstemmethoden geïntroduceerd die subtiele aanpassingen maken aan de originele modellen, wat veelbelovende resultaten oplevert bij specifieke aanpassingen van fundamentele generatieve diffusiemodellen. In plaats van de hoofdstructuur van het diffusiemodel te wijzigen, verdiepen we ons in de rol van de skip-verbinding in U-Net en onthullen we dat hiërarchische kenmerken die informatie over lange afstand aggregeren tussen de encoder en decoder een aanzienlijke impact hebben op de inhoud en kwaliteit van beeldgeneratie. Op basis van deze observatie stellen we een efficiënt generatief afstemkader voor, genaamd SCEdit, dat skip-verbindingen integreert en bewerkt met behulp van een lichtgewicht afstemmodule genaamd SC-Tuner. Bovendien maakt het voorgestelde kader een eenvoudige uitbreiding naar controleerbare beeld synthese mogelijk door verschillende condities in te voeren met de Controleerbare SC-Tuner, wat het netwerkontwerp voor multi-conditie-ingangen vereenvoudigt en verenigt. Onze SCEdit vermindert aanzienlijk het aantal trainingsparameters, het geheugengebruik en de rekenkosten dankzij de lichtgewicht tuners, waarbij de achterwaartse propagatie alleen naar de decoderblokken wordt doorgegeven. Uitgebreide experimenten uitgevoerd op tekst-naar-beeldgeneratie en controleerbare beeld synthese taken demonstreren de superioriteit van onze methode in termen van efficiëntie en prestaties. Projectpagina: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: https://scedit.github.io/
PDF203February 11, 2026