InstantDrag: Melhorando a Interatividade na Edição de Imagens Baseada em Arrastar
InstantDrag: Improving Interactivity in Drag-based Image Editing
September 13, 2024
Autores: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI
Resumo
A edição de imagens baseada em arrastar ganhou recentemente popularidade por sua interatividade e precisão. No entanto, apesar da capacidade dos modelos de texto-para-imagem de gerar amostras em um segundo, a edição por arrastar ainda fica para trás devido ao desafio de refletir com precisão a interação do usuário mantendo o conteúdo da imagem. Algumas abordagens existentes dependem de otimização intensiva por imagem ou métodos baseados em orientação intrincados, exigindo entradas adicionais como máscaras para regiões móveis e instruções de texto, comprometendo assim a interatividade do processo de edição. Apresentamos o InstantDrag, um pipeline sem otimização que aprimora a interatividade e a velocidade, exigindo apenas uma imagem e uma instrução de arrastar como entrada. O InstantDrag é composto por duas redes cuidadosamente projetadas: um gerador de fluxo óptico condicionado ao arrastar (FlowGen) e um modelo de difusão condicionado ao fluxo óptico (FlowDiffusion). O InstantDrag aprende dinâmicas de movimento para edição de imagens baseada em arrastar em conjuntos de dados de vídeo do mundo real, decompondo a tarefa em geração de movimento e geração de imagem condicionada ao movimento. Demonstramos a capacidade do InstantDrag de realizar edições rápidas e fotorrealistas sem máscaras ou instruções de texto por meio de experimentos em conjuntos de dados de vídeo facial e cenas gerais. Esses resultados destacam a eficiência de nossa abordagem no manuseio da edição de imagens baseada em arrastar, tornando-a uma solução promissora para aplicações interativas em tempo real.
English
Drag-based image editing has recently gained popularity for its interactivity
and precision. However, despite the ability of text-to-image models to generate
samples within a second, drag editing still lags behind due to the challenge of
accurately reflecting user interaction while maintaining image content. Some
existing approaches rely on computationally intensive per-image optimization or
intricate guidance-based methods, requiring additional inputs such as masks for
movable regions and text prompts, thereby compromising the interactivity of the
editing process. We introduce InstantDrag, an optimization-free pipeline that
enhances interactivity and speed, requiring only an image and a drag
instruction as input. InstantDrag consists of two carefully designed networks:
a drag-conditioned optical flow generator (FlowGen) and an optical
flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion
dynamics for drag-based image editing in real-world video datasets by
decomposing the task into motion generation and motion-conditioned image
generation. We demonstrate InstantDrag's capability to perform fast,
photo-realistic edits without masks or text prompts through experiments on
facial video datasets and general scenes. These results highlight the
efficiency of our approach in handling drag-based image editing, making it a
promising solution for interactive, real-time applications.Summary
AI-Generated Summary