Flujo Estable: Capas Vitales para la Edición de Imágenes sin Entrenamiento
Stable Flow: Vital Layers for Training-Free Image Editing
November 21, 2024
Autores: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI
Resumen
Los modelos de difusión han revolucionado el campo de la síntesis y edición de contenido. Los modelos recientes han reemplazado la arquitectura UNet tradicional con el Transformador de Difusión (DiT) y han utilizado el emparejamiento de flujos para mejorar el entrenamiento y el muestreo. Sin embargo, muestran una diversidad de generación limitada. En este trabajo, aprovechamos esta limitación para realizar ediciones de imágenes consistentes mediante la inyección selectiva de características de atención. El principal desafío es que, a diferencia de los modelos basados en UNet, DiT carece de una estructura de síntesis de grueso a fino, lo que hace que no esté claro en qué capas realizar la inyección. Por lo tanto, proponemos un método automático para identificar las "capas vitales" dentro de DiT, cruciales para la formación de imágenes, y demostramos cómo estas capas facilitan una variedad de ediciones estables controladas, desde modificaciones no rígidas hasta la adición de objetos, utilizando el mismo mecanismo. A continuación, para permitir la edición de imágenes reales, introducimos un método de inversión de imágenes mejorado para modelos de flujo. Finalmente, evaluamos nuestro enfoque a través de comparaciones cualitativas y cuantitativas, junto con un estudio de usuarios, y demostramos su efectividad en múltiples aplicaciones. La página del proyecto está disponible en https://omriavrahami.com/stable-flow.
English
Diffusion models have revolutionized the field of content synthesis and
editing. Recent models have replaced the traditional UNet architecture with the
Diffusion Transformer (DiT), and employed flow-matching for improved training
and sampling. However, they exhibit limited generation diversity. In this work,
we leverage this limitation to perform consistent image edits via selective
injection of attention features. The main challenge is that, unlike the
UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it
unclear in which layers to perform the injection. Therefore, we propose an
automatic method to identify "vital layers" within DiT, crucial for image
formation, and demonstrate how these layers facilitate a range of controlled
stable edits, from non-rigid modifications to object addition, using the same
mechanism. Next, to enable real-image editing, we introduce an improved image
inversion method for flow models. Finally, we evaluate our approach through
qualitative and quantitative comparisons, along with a user study, and
demonstrate its effectiveness across multiple applications. The project page is
available at https://omriavrahami.com/stable-flowSummary
AI-Generated Summary