ChatPaper.aiChatPaper

FlowEdit: Inversie-vrije tekstgebaseerde bewerking met behulp van vooraf getrainde stroommodellen

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

December 11, 2024
Auteurs: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI

Samenvatting

Het bewerken van echte afbeeldingen met behulp van een vooraf getraind tekst-naar-afbeelding (T2I) diffusie/stroommodel omvat vaak het omkeren van de afbeelding naar zijn overeenkomstige ruiskaart. Echter, omkering op zichzelf is doorgaans onvoldoende om bevredigende resultaten te verkrijgen, en daarom grijpen veel methoden bovendien in tijdens het bemonsteringsproces. Dergelijke methoden behalen verbeterde resultaten, maar zijn niet naadloos overdraagbaar tussen modelarchitecturen. Hier introduceren we FlowEdit, een op tekst gebaseerde bewerkingsmethode voor vooraf getrainde T2I-stroommodellen, die omkeringsvrij, optimaliseringsvrij en modelagnostisch is. Onze methode construeert een ODE die direct in kaart brengt tussen de bron- en doeldistributies (overeenkomend met de bron- en doeltekstprompts) en behaalt een lagere transportkost dan de omkeringsbenadering. Dit leidt tot state-of-the-art resultaten, zoals we illustreren met Stable Diffusion 3 en FLUX. Code en voorbeelden zijn beschikbaar op de projectwebsite.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow model often involves inverting the image into its corresponding noise map. However, inversion by itself is typically insufficient for obtaining satisfactory results, and therefore many methods additionally intervene in the sampling process. Such methods achieve improved results but are not seamlessly transferable between model architectures. Here, we introduce FlowEdit, a text-based editing method for pre-trained T2I flow models, which is inversion-free, optimization-free and model agnostic. Our method constructs an ODE that directly maps between the source and target distributions (corresponding to the source and target text prompts) and achieves a lower transport cost than the inversion approach. This leads to state-of-the-art results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples are available on the project's webpage.
PDF124December 12, 2024