InstantDrag: Het Verbeteren van Interactiviteit bij Beeldbewerking op Basis van Slepen
InstantDrag: Improving Interactivity in Drag-based Image Editing
September 13, 2024
Auteurs: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI
Samenvatting
Drag-gebaseerde beeldbewerking heeft recentelijk aan populariteit gewonnen vanwege de interactiviteit en precisie. Echter, ondanks de mogelijkheid van tekst-naar-beeld modellen om binnen een seconde monsters te genereren, loopt drag-bewerking nog achter vanwege de uitdaging om de gebruikersinteractie nauwkeurig weer te geven terwijl de beeldinhoud behouden blijft. Sommige bestaande benaderingen vertrouwen op rekenintensieve optimalisatie per beeld of ingewikkelde op begeleiding gebaseerde methoden, waarbij aanvullende invoer zoals maskers voor verplaatsbare gebieden en tekstprompts nodig zijn, wat de interactiviteit van het bewerkingsproces compromitteert. Wij introduceren InstantDrag, een optimalisatievrije pijplijn die de interactiviteit en snelheid verbetert, waarbij alleen een afbeelding en een sleepinstructie als invoer nodig zijn. InstantDrag bestaat uit twee zorgvuldig ontworpen netwerken: een sleep-geconditioneerde optische stroomgenerator (FlowGen) en een optische stroom-geconditioneerd diffusiemodel (FlowDiffusion). InstantDrag leert bewegingsdynamiek voor drag-gebaseerde beeldbewerking in real-world video datasets door de taak op te splitsen in bewegingsgeneratie en beweging-geconditioneerde beeldgeneratie. We tonen de capaciteit van InstantDrag aan om snelle, fotorealistische bewerkingen uit te voeren zonder maskers of tekstprompts via experimenten op gezichtsvideo datasets en algemene scènes. Deze resultaten benadrukken de efficiëntie van onze benadering in het omgaan met drag-gebaseerde beeldbewerking, waardoor het een veelbelovende oplossing is voor interactieve, real-time toepassingen.
English
Drag-based image editing has recently gained popularity for its interactivity
and precision. However, despite the ability of text-to-image models to generate
samples within a second, drag editing still lags behind due to the challenge of
accurately reflecting user interaction while maintaining image content. Some
existing approaches rely on computationally intensive per-image optimization or
intricate guidance-based methods, requiring additional inputs such as masks for
movable regions and text prompts, thereby compromising the interactivity of the
editing process. We introduce InstantDrag, an optimization-free pipeline that
enhances interactivity and speed, requiring only an image and a drag
instruction as input. InstantDrag consists of two carefully designed networks:
a drag-conditioned optical flow generator (FlowGen) and an optical
flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion
dynamics for drag-based image editing in real-world video datasets by
decomposing the task into motion generation and motion-conditioned image
generation. We demonstrate InstantDrag's capability to perform fast,
photo-realistic edits without masks or text prompts through experiments on
facial video datasets and general scenes. These results highlight the
efficiency of our approach in handling drag-based image editing, making it a
promising solution for interactive, real-time applications.Summary
AI-Generated Summary