ChatPaper.aiChatPaper

FlowEdit : Édition de texte sans inversion utilisant des modèles de flux pré-entraînés

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

December 11, 2024
Auteurs: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI

Résumé

Éditer des images réelles à l'aide d'un modèle de diffusion/flux texte-vers-image (T2I) pré-entraîné implique souvent d'inverser l'image en sa carte de bruit correspondante. Cependant, l'inversion en elle-même est généralement insuffisante pour obtenir des résultats satisfaisants, c'est pourquoi de nombreuses méthodes interviennent également dans le processus d'échantillonnage. Ces méthodes permettent d'obtenir des résultats améliorés mais ne sont pas facilement transférables entre les architectures de modèles. Nous présentons ici FlowEdit, une méthode d'édition basée sur le texte pour les modèles de flux T2I pré-entraînés, qui est sans inversion, sans optimisation et indépendante du modèle. Notre méthode construit une EDO qui mappe directement entre les distributions source et cible (correspondant aux instructions textuelles source et cible) et atteint un coût de transport inférieur à l'approche par inversion. Cela conduit à des résultats de pointe, comme nous l'illustrons avec Stable Diffusion 3 et FLUX. Le code et des exemples sont disponibles sur la page web du projet.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow model often involves inverting the image into its corresponding noise map. However, inversion by itself is typically insufficient for obtaining satisfactory results, and therefore many methods additionally intervene in the sampling process. Such methods achieve improved results but are not seamlessly transferable between model architectures. Here, we introduce FlowEdit, a text-based editing method for pre-trained T2I flow models, which is inversion-free, optimization-free and model agnostic. Our method constructs an ODE that directly maps between the source and target distributions (corresponding to the source and target text prompts) and achieves a lower transport cost than the inversion approach. This leads to state-of-the-art results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples are available on the project's webpage.

Summary

AI-Generated Summary

PDF124December 12, 2024