TurboEdit: Edição instantânea de imagens baseada em texto
TurboEdit: Instant text-based image editing
August 14, 2024
Autores: Zongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman
cs.AI
Resumo
Abordamos os desafios da inversão precisa de imagens e edição de imagens desembaraçadas no contexto de modelos de difusão de poucas etapas. Introduzimos uma técnica de inversão iterativa baseada em um codificador. A rede de inversão é condicionada à imagem de entrada e à imagem reconstruída da etapa anterior, permitindo a correção da próxima reconstrução em direção à imagem de entrada. Demonstramos que controles desembaraçados podem ser facilmente alcançados no modelo de difusão de poucas etapas condicionando a um prompt de texto detalhado (gerado automaticamente). Para manipular a imagem invertida, congelamos os mapas de ruído e modificamos um atributo no prompt de texto (manualmente ou por edição baseada em instrução conduzida por um LLM), resultando na geração de uma nova imagem semelhante à imagem de entrada com apenas um atributo alterado. Isso permite controlar ainda a intensidade da edição e aceitar prompts de texto instrutivos. Nossa abordagem facilita edições de imagens guiadas por texto realistas em tempo real, exigindo apenas 8 avaliações funcionais (NFEs) na inversão (custo único) e 4 NFEs por edição. Nosso método não é apenas rápido, mas também supera significativamente as técnicas de edição de difusão de várias etapas de ponta.
English
We address the challenges of precise image inversion and disentangled image
editing in the context of few-step diffusion models. We introduce an encoder
based iterative inversion technique. The inversion network is conditioned on
the input image and the reconstructed image from the previous step, allowing
for correction of the next reconstruction towards the input image. We
demonstrate that disentangled controls can be easily achieved in the few-step
diffusion model by conditioning on an (automatically generated) detailed text
prompt. To manipulate the inverted image, we freeze the noise maps and modify
one attribute in the text prompt (either manually or via instruction based
editing driven by an LLM), resulting in the generation of a new image similar
to the input image with only one attribute changed. It can further control the
editing strength and accept instructive text prompt. Our approach facilitates
realistic text-guided image edits in real-time, requiring only 8 number of
functional evaluations (NFEs) in inversion (one-time cost) and 4 NFEs per edit.
Our method is not only fast, but also significantly outperforms
state-of-the-art multi-step diffusion editing techniques.Summary
AI-Generated Summary