ChatPaper.aiChatPaper

FlowEdit: Редактирование текста без инверсии с использованием предварительно обученных моделей потока.

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

December 11, 2024
Авторы: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI

Аннотация

Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текста в изображение (T2I) часто включает в себя преобразование изображения в соответствующую карту шума. Однако само по себе инвертирование обычно недостаточно для получения удовлетворительных результатов, поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но не могут без проблем переноситься между архитектурами моделей. В данной работе мы представляем метод FlowEdit, основанный на тексте, для предварительно обученных моделей потока T2I, который не требует инвертирования, оптимизации и не зависит от модели. Наш метод строит ОДУ, которое напрямую отображает исходное и целевое распределения (соответствующие исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход с инверсией. Это приводит к результатам на уровне современных достижений, как мы показываем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow model often involves inverting the image into its corresponding noise map. However, inversion by itself is typically insufficient for obtaining satisfactory results, and therefore many methods additionally intervene in the sampling process. Such methods achieve improved results but are not seamlessly transferable between model architectures. Here, we introduce FlowEdit, a text-based editing method for pre-trained T2I flow models, which is inversion-free, optimization-free and model agnostic. Our method constructs an ODE that directly maps between the source and target distributions (corresponding to the source and target text prompts) and achieves a lower transport cost than the inversion approach. This leads to state-of-the-art results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples are available on the project's webpage.

Summary

AI-Generated Summary

PDF124December 12, 2024