FlowEdit: Edição de Texto sem Inversão Usando Modelos de Fluxo Pré-Treinados
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models
December 11, 2024
Autores: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI
Resumo
A edição de imagens reais usando um modelo de difusão/fluido pré-treinado texto-para-imagem (T2I) frequentemente envolve a inversão da imagem em seu respectivo mapa de ruído. No entanto, a inversão por si só geralmente é insuficiente para obter resultados satisfatórios, e, portanto, muitos métodos intervêm adicionalmente no processo de amostragem. Tais métodos alcançam resultados aprimorados, mas não são facilmente transferíveis entre arquiteturas de modelos. Aqui, apresentamos o FlowEdit, um método de edição baseado em texto para modelos de fluxo T2I pré-treinados, que é livre de inversão, livre de otimização e independente de modelo. Nosso método constrói uma EDO que mapeia diretamente entre as distribuições de origem e alvo (correspondentes às sugestões de texto de origem e alvo) e alcança um custo de transporte mais baixo do que a abordagem de inversão. Isso resulta em resultados de ponta, como ilustramos com Stable Diffusion 3 e FLUX. O código e exemplos estão disponíveis na página do projeto.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow
model often involves inverting the image into its corresponding noise map.
However, inversion by itself is typically insufficient for obtaining
satisfactory results, and therefore many methods additionally intervene in the
sampling process. Such methods achieve improved results but are not seamlessly
transferable between model architectures. Here, we introduce FlowEdit, a
text-based editing method for pre-trained T2I flow models, which is
inversion-free, optimization-free and model agnostic. Our method constructs an
ODE that directly maps between the source and target distributions
(corresponding to the source and target text prompts) and achieves a lower
transport cost than the inversion approach. This leads to state-of-the-art
results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples
are available on the project's webpage.