ChatPaper.aiChatPaper

TurboEdit : Édition instantanée d'images basée sur le texte

TurboEdit: Instant text-based image editing

August 14, 2024
Auteurs: Zongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman
cs.AI

Résumé

Nous abordons les défis de l'inversion précise d'images et de l'édition d'images désentrelacées dans le contexte des modèles de diffusion à faible nombre d'étapes. Nous introduisons une technique d'inversion itérative basée sur un encodeur. Le réseau d'inversion est conditionné sur l'image d'entrée et l'image reconstruite à l'étape précédente, permettant ainsi de corriger la prochaine reconstruction vers l'image d'entrée. Nous démontrons que des contrôles désentrelacés peuvent être facilement obtenus dans le modèle de diffusion à faible nombre d'étapes en conditionnant sur une invite textuelle détaillée (générée automatiquement). Pour manipuler l'image inversée, nous gelons les cartes de bruit et modifions un attribut dans l'invite textuelle (soit manuellement, soit via une édition basée sur des instructions pilotée par un LLM), ce qui entraîne la génération d'une nouvelle image similaire à l'image d'entrée avec un seul attribut modifié. Notre approche permet en outre de contrôler la force de l'édition et d'accepter des invites textuelles instructives. Notre méthode facilite des éditions d'images guidées par texte en temps réel, nécessitant seulement 8 évaluations fonctionnelles (NFEs) pour l'inversion (coût unique) et 4 NFEs par édition. Notre méthode est non seulement rapide, mais surpasse également de manière significative les techniques d'édition par diffusion multi-étapes de pointe.
English
We address the challenges of precise image inversion and disentangled image editing in the context of few-step diffusion models. We introduce an encoder based iterative inversion technique. The inversion network is conditioned on the input image and the reconstructed image from the previous step, allowing for correction of the next reconstruction towards the input image. We demonstrate that disentangled controls can be easily achieved in the few-step diffusion model by conditioning on an (automatically generated) detailed text prompt. To manipulate the inverted image, we freeze the noise maps and modify one attribute in the text prompt (either manually or via instruction based editing driven by an LLM), resulting in the generation of a new image similar to the input image with only one attribute changed. It can further control the editing strength and accept instructive text prompt. Our approach facilitates realistic text-guided image edits in real-time, requiring only 8 number of functional evaluations (NFEs) in inversion (one-time cost) and 4 NFEs per edit. Our method is not only fast, but also significantly outperforms state-of-the-art multi-step diffusion editing techniques.

Summary

AI-Generated Summary

PDF213November 26, 2024