ChatPaper.aiChatPaper

InstantDrag: Migliorare l'interattività nella modifica delle immagini basata su drag-and-drop

InstantDrag: Improving Interactivity in Drag-based Image Editing

September 13, 2024
Autori: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI

Abstract

L'editing delle immagini basato su trascinamento ha recentemente guadagnato popolarità per la sua interattività e precisione. Tuttavia, nonostante la capacità dei modelli testo-immagine di generare campioni in un secondo, l'editing tramite trascinamento rimane indietro a causa della sfida di riflettere accuratamente l'interazione dell'utente pur mantenendo il contenuto dell'immagine. Alcuni approcci esistenti si basano sull'ottimizzazione intensiva dal punto di vista computazionale per immagine o su metodi basati su guida intricati, che richiedono input aggiuntivi come maschere per regioni mobili e istruzioni di testo, compromettendo così l'interattività del processo di editing. Presentiamo InstantDrag, un flusso di lavoro senza ottimizzazione che migliora l'interattività e la velocità, richiedendo solo un'immagine e un'istruzione di trascinamento come input. InstantDrag è composto da due reti attentamente progettate: un generatore di flusso ottico condizionato al trascinamento (FlowGen) e un modello di diffusione condizionato al flusso ottico (FlowDiffusion). InstantDrag apprende la dinamica del movimento per l'editing delle immagini basato su trascinamento in set di dati video del mondo reale scomponendo il compito in generazione di movimento e generazione di immagini condizionata al movimento. Dimostriamo la capacità di InstantDrag di eseguire modifiche rapide e fotorealistiche senza maschere o istruzioni di testo attraverso esperimenti su set di dati video facciali e scene generali. Questi risultati evidenziano l'efficienza del nostro approccio nel gestire l'editing delle immagini basato su trascinamento, rendendolo una soluzione promettente per applicazioni interattive e in tempo reale.
English
Drag-based image editing has recently gained popularity for its interactivity and precision. However, despite the ability of text-to-image models to generate samples within a second, drag editing still lags behind due to the challenge of accurately reflecting user interaction while maintaining image content. Some existing approaches rely on computationally intensive per-image optimization or intricate guidance-based methods, requiring additional inputs such as masks for movable regions and text prompts, thereby compromising the interactivity of the editing process. We introduce InstantDrag, an optimization-free pipeline that enhances interactivity and speed, requiring only an image and a drag instruction as input. InstantDrag consists of two carefully designed networks: a drag-conditioned optical flow generator (FlowGen) and an optical flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion dynamics for drag-based image editing in real-world video datasets by decomposing the task into motion generation and motion-conditioned image generation. We demonstrate InstantDrag's capability to perform fast, photo-realistic edits without masks or text prompts through experiments on facial video datasets and general scenes. These results highlight the efficiency of our approach in handling drag-based image editing, making it a promising solution for interactive, real-time applications.

Summary

AI-Generated Summary

PDF342November 16, 2024