Устойчивый поток: ключевые слои для редактирования изображений без обучения.
Stable Flow: Vital Layers for Training-Free Image Editing
November 21, 2024
Авторы: Omri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or
cs.AI
Аннотация
Модели диффузии революционизировали область синтеза и редактирования контента. Недавние модели заменили традиционную архитектуру UNet на Диффузионный Трансформер (DiT) и использовали сопоставление потоков для улучшения обучения и сэмплирования. Однако они демонстрируют ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательных редактирований изображений путем селективного внедрения признаков внимания. Основным вызовом является то, что, в отличие от моделей на основе UNet, DiT не имеет структуры грубого и тонкого синтеза, что делает неясным, в каких слоях выполнять внедрение. Поэтому мы предлагаем автоматический метод для выявления "важных слоев" в DiT, важных для формирования изображения, и демонстрируем, как эти слои облегчают ряд контролируемых стабильных редактирований, от нелинейных модификаций до добавления объектов, используя тот же механизм. Затем, чтобы обеспечить редактирование реальных изображений, мы представляем улучшенный метод инверсии изображения для моделей потока. Наконец, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.
English
Diffusion models have revolutionized the field of content synthesis and
editing. Recent models have replaced the traditional UNet architecture with the
Diffusion Transformer (DiT), and employed flow-matching for improved training
and sampling. However, they exhibit limited generation diversity. In this work,
we leverage this limitation to perform consistent image edits via selective
injection of attention features. The main challenge is that, unlike the
UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it
unclear in which layers to perform the injection. Therefore, we propose an
automatic method to identify "vital layers" within DiT, crucial for image
formation, and demonstrate how these layers facilitate a range of controlled
stable edits, from non-rigid modifications to object addition, using the same
mechanism. Next, to enable real-image editing, we introduce an improved image
inversion method for flow models. Finally, we evaluate our approach through
qualitative and quantitative comparisons, along with a user study, and
demonstrate its effectiveness across multiple applications. The project page is
available at https://omriavrahami.com/stable-flowSummary
AI-Generated Summary