ChatPaper.aiChatPaper

SCEdit: Geração Eficiente e Controlável de Imagens por Difusão via Edição de Conexões de Salto

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

December 18, 2023
Autores: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI

Resumo

Modelos de difusão de imagens têm sido utilizados em diversas tarefas, como geração de texto para imagem e síntese de imagem controlável. Pesquisas recentes introduziram métodos de ajuste que fazem alterações sutis nos modelos originais, obtendo resultados promissores em adaptações específicas de modelos generativos de difusão fundamentais. Em vez de modificar a estrutura principal do modelo de difusão, investigamos o papel da conexão skip na U-Net e revelamos que características hierárquicas que agregam informações de longa distância entre o codificador e o decodificador têm um impacto significativo no conteúdo e na qualidade da geração de imagens. Com base nessa observação, propomos um framework eficiente de ajuste generativo, denominado SCEdit, que integra e edita a conexão skip utilizando um módulo leve de ajuste chamado SC-Tuner. Além disso, o framework proposto permite uma extensão direta para síntese de imagem controlável ao injetar diferentes condições com o Controllable SC-Tuner, simplificando e unificando o design da rede para entradas de múltiplas condições. Nosso SCEdit reduz substancialmente os parâmetros de treinamento, o uso de memória e o custo computacional devido aos seus ajustadores leves, com a propagação reversa passando apenas para os blocos do decodificador. Experimentos extensivos realizados em tarefas de geração de texto para imagem e síntese de imagem controlável demonstram a superioridade do nosso método em termos de eficiência e desempenho. Página do projeto: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: https://scedit.github.io/
PDF203February 11, 2026