TurboEdit : Édition instantanée d'images basée sur le texte
TurboEdit: Instant text-based image editing
August 14, 2024
Auteurs: Zongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman
cs.AI
Résumé
Nous abordons les défis de l'inversion précise d'images et de l'édition d'images désentrelacées dans le contexte des modèles de diffusion à faible nombre d'étapes. Nous introduisons une technique d'inversion itérative basée sur un encodeur. Le réseau d'inversion est conditionné sur l'image d'entrée et l'image reconstruite à l'étape précédente, permettant ainsi de corriger la prochaine reconstruction vers l'image d'entrée. Nous démontrons que des contrôles désentrelacés peuvent être facilement obtenus dans le modèle de diffusion à faible nombre d'étapes en conditionnant sur une invite textuelle détaillée (générée automatiquement). Pour manipuler l'image inversée, nous gelons les cartes de bruit et modifions un attribut dans l'invite textuelle (soit manuellement, soit via une édition basée sur des instructions pilotée par un LLM), ce qui entraîne la génération d'une nouvelle image similaire à l'image d'entrée avec un seul attribut modifié. Notre approche permet en outre de contrôler la force de l'édition et d'accepter des invites textuelles instructives. Notre méthode facilite des éditions d'images guidées par texte en temps réel, nécessitant seulement 8 évaluations fonctionnelles (NFEs) pour l'inversion (coût unique) et 4 NFEs par édition. Notre méthode est non seulement rapide, mais surpasse également de manière significative les techniques d'édition par diffusion multi-étapes de pointe.
English
We address the challenges of precise image inversion and disentangled image
editing in the context of few-step diffusion models. We introduce an encoder
based iterative inversion technique. The inversion network is conditioned on
the input image and the reconstructed image from the previous step, allowing
for correction of the next reconstruction towards the input image. We
demonstrate that disentangled controls can be easily achieved in the few-step
diffusion model by conditioning on an (automatically generated) detailed text
prompt. To manipulate the inverted image, we freeze the noise maps and modify
one attribute in the text prompt (either manually or via instruction based
editing driven by an LLM), resulting in the generation of a new image similar
to the input image with only one attribute changed. It can further control the
editing strength and accept instructive text prompt. Our approach facilitates
realistic text-guided image edits in real-time, requiring only 8 number of
functional evaluations (NFEs) in inversion (one-time cost) and 4 NFEs per edit.
Our method is not only fast, but also significantly outperforms
state-of-the-art multi-step diffusion editing techniques.Summary
AI-Generated Summary