ChatPaper.aiChatPaper

SCEdit: Generación eficiente y controlable de imágenes mediante difusión a través de la edición de conexiones de salto

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

December 18, 2023
Autores: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
cs.AI

Resumen

Los modelos de difusión de imágenes se han utilizado en diversas tareas, como la generación de imágenes a partir de texto y la síntesis de imágenes controlable. Investigaciones recientes han introducido métodos de ajuste que realizan modificaciones sutiles a los modelos originales, obteniendo resultados prometedores en adaptaciones específicas de modelos generativos de difusión fundamentales. En lugar de modificar la estructura principal del modelo de difusión, profundizamos en el papel de las conexiones de salto (skip connections) en U-Net y revelamos que las características jerárquicas que agregan información de larga distancia entre el codificador y el decodificador tienen un impacto significativo en el contenido y la calidad de la generación de imágenes. Basándonos en esta observación, proponemos un marco eficiente de ajuste generativo, denominado SCEdit, que integra y edita las conexiones de salto utilizando un módulo de ajuste ligero llamado SC-Tuner. Además, el marco propuesto permite una extensión directa a la síntesis de imágenes controlable mediante la inyección de diferentes condiciones con el Controllable SC-Tuner, simplificando y unificando el diseño de la red para entradas de múltiples condiciones. Nuestro SCEdit reduce sustancialmente los parámetros de entrenamiento, el uso de memoria y el costo computacional debido a sus ajustadores ligeros, con la propagación hacia atrás solo pasando a los bloques del decodificador. Experimentos exhaustivos realizados en tareas de generación de imágenes a partir de texto y síntesis de imágenes controlable demuestran la superioridad de nuestro método en términos de eficiencia y rendimiento. Página del proyecto: https://scedit.github.io/
English
Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: https://scedit.github.io/
PDF203December 15, 2024