InstantDrag : Amélioration de l'interactivité dans l'édition d'images basée sur le glisser-déposer.
InstantDrag: Improving Interactivity in Drag-based Image Editing
September 13, 2024
Auteurs: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI
Résumé
L'édition d'images basée sur le glissement a récemment gagné en popularité pour son interactivité et sa précision. Cependant, malgré la capacité des modèles texte-vers-image à générer des échantillons en une seconde, l'édition par glissement accuse encore du retard en raison du défi de refléter avec précision l'interaction de l'utilisateur tout en maintenant le contenu de l'image. Certaines approches existantes reposent sur une optimisation intensive par image ou des méthodes basées sur des directives complexes, nécessitant des entrées supplémentaires telles que des masques pour les régions mobiles et des instructions textuelles, compromettant ainsi l'interactivité du processus d'édition. Nous présentons InstantDrag, un pipeline sans optimisation qui améliore l'interactivité et la vitesse, ne nécessitant qu'une image et une instruction de glissement en tant qu'entrée. InstantDrag se compose de deux réseaux soigneusement conçus : un générateur de flux optique conditionné par le glissement (FlowGen) et un modèle de diffusion conditionné par le flux optique (FlowDiffusion). InstantDrag apprend la dynamique du mouvement pour l'édition d'images basée sur le glissement dans des ensembles de données vidéo du monde réel en décomposant la tâche en génération de mouvement et génération d'image conditionnée par le mouvement. Nous démontrons la capacité d'InstantDrag à réaliser des éditions rapides et photoréalistes sans masques ni instructions textuelles à travers des expériences sur des ensembles de données vidéo faciales et des scènes générales. Ces résultats mettent en évidence l'efficacité de notre approche dans la gestion de l'édition d'images basée sur le glissement, en faisant une solution prometteuse pour des applications interactives en temps réel.
English
Drag-based image editing has recently gained popularity for its interactivity
and precision. However, despite the ability of text-to-image models to generate
samples within a second, drag editing still lags behind due to the challenge of
accurately reflecting user interaction while maintaining image content. Some
existing approaches rely on computationally intensive per-image optimization or
intricate guidance-based methods, requiring additional inputs such as masks for
movable regions and text prompts, thereby compromising the interactivity of the
editing process. We introduce InstantDrag, an optimization-free pipeline that
enhances interactivity and speed, requiring only an image and a drag
instruction as input. InstantDrag consists of two carefully designed networks:
a drag-conditioned optical flow generator (FlowGen) and an optical
flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion
dynamics for drag-based image editing in real-world video datasets by
decomposing the task into motion generation and motion-conditioned image
generation. We demonstrate InstantDrag's capability to perform fast,
photo-realistic edits without masks or text prompts through experiments on
facial video datasets and general scenes. These results highlight the
efficiency of our approach in handling drag-based image editing, making it a
promising solution for interactive, real-time applications.Summary
AI-Generated Summary