ChatPaper.aiChatPaper

FlowEdit: Inversionsfreie textbasierte Bearbeitung unter Verwendung vorab trainierter Flussmodelle

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

December 11, 2024
Autoren: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI

Zusammenfassung

Die Bearbeitung von echten Bildern mithilfe eines vortrainierten Text-zu-Bild (T2I) Diffusions-/Flussmodells beinhaltet oft die Umkehrung des Bildes in seine entsprechende Rauschkarte. Allerdings ist die Umkehrung allein in der Regel nicht ausreichend, um zufriedenstellende Ergebnisse zu erzielen, weshalb viele Methoden zusätzlich in den Prozess der Abtastung eingreifen. Solche Methoden erzielen verbesserte Ergebnisse, sind jedoch nicht nahtlos zwischen Modellarchitekturen übertragbar. Hier stellen wir FlowEdit vor, eine textbasierte Bearbeitungsmethode für vortrainierte T2I-Flussmodelle, die umkehrungsfrei, optimierungsfrei und modellagnostisch ist. Unsere Methode konstruiert eine gewöhnliche Differentialgleichung (ODE), die direkt zwischen den Ausgangs- und Zielverteilungen (entsprechend den Ausgangs- und Zieltextvorgaben) abbildet und eine geringere Transportkosten aufweist als der Umkehrungsansatz. Dies führt zu Spitzenleistungen, wie wir anhand von Stable Diffusion 3 und FLUX veranschaulichen. Der Code und Beispiele sind auf der Projektwebseite verfügbar.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow model often involves inverting the image into its corresponding noise map. However, inversion by itself is typically insufficient for obtaining satisfactory results, and therefore many methods additionally intervene in the sampling process. Such methods achieve improved results but are not seamlessly transferable between model architectures. Here, we introduce FlowEdit, a text-based editing method for pre-trained T2I flow models, which is inversion-free, optimization-free and model agnostic. Our method constructs an ODE that directly maps between the source and target distributions (corresponding to the source and target text prompts) and achieves a lower transport cost than the inversion approach. This leads to state-of-the-art results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples are available on the project's webpage.

Summary

AI-Generated Summary

PDF124December 12, 2024