ChatPaper.aiChatPaper

InstantDrag: Verbesserung der Interaktivität bei der bildbasierten Bearbeitung durch Ziehen.

InstantDrag: Improving Interactivity in Drag-based Image Editing

September 13, 2024
Autoren: Joonghyuk Shin, Daehyeon Choi, Jaesik Park
cs.AI

Zusammenfassung

Die auf Ziehen basierende Bildbearbeitung hat in letzter Zeit an Popularität gewonnen aufgrund ihrer Interaktivität und Präzision. Trotz der Fähigkeit von Text-zu-Bild-Modellen, innerhalb einer Sekunde Proben zu generieren, hinkt die Ziehbearbeitung immer noch hinterher, aufgrund der Herausforderung, die Benutzerinteraktion genau widerzuspiegeln, während der Bildinhalt beibehalten wird. Einige bestehende Ansätze verlassen sich auf rechenaufwändige Optimierung pro Bild oder auf komplexe, anleitungs-basierte Methoden, die zusätzliche Eingaben wie Masken für bewegliche Bereiche und Textanweisungen erfordern, wodurch die Interaktivität des Bearbeitungsprozesses beeinträchtigt wird. Wir stellen InstantDrag vor, eine optimierungsfreie Pipeline, die die Interaktivität und Geschwindigkeit verbessert und nur ein Bild und eine Ziehanweisung als Eingabe benötigt. InstantDrag besteht aus zwei sorgfältig entworfenen Netzwerken: einem Ziehbedingten optischen Flussgenerator (FlowGen) und einem optischen Flussbedingten Diffusionsmodell (FlowDiffusion). InstantDrag lernt Bewegungsdynamiken für die auf Ziehen basierende Bildbearbeitung in realen Videodatensätzen, indem die Aufgabe in Bewegungsgenerierung und bewegungsbedingte Bildgenerierung zerlegt wird. Wir zeigen die Fähigkeit von InstantDrag, schnelle, fotorealistische Bearbeitungen ohne Masken oder Textanweisungen durch Experimente an Gesichtsvideodatensätzen und allgemeinen Szenen durchzuführen. Diese Ergebnisse heben die Effizienz unseres Ansatzes bei der Bewältigung der auf Ziehen basierenden Bildbearbeitung hervor und machen ihn zu einer vielversprechenden Lösung für interaktive, Echtzeit-Anwendungen.
English
Drag-based image editing has recently gained popularity for its interactivity and precision. However, despite the ability of text-to-image models to generate samples within a second, drag editing still lags behind due to the challenge of accurately reflecting user interaction while maintaining image content. Some existing approaches rely on computationally intensive per-image optimization or intricate guidance-based methods, requiring additional inputs such as masks for movable regions and text prompts, thereby compromising the interactivity of the editing process. We introduce InstantDrag, an optimization-free pipeline that enhances interactivity and speed, requiring only an image and a drag instruction as input. InstantDrag consists of two carefully designed networks: a drag-conditioned optical flow generator (FlowGen) and an optical flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion dynamics for drag-based image editing in real-world video datasets by decomposing the task into motion generation and motion-conditioned image generation. We demonstrate InstantDrag's capability to perform fast, photo-realistic edits without masks or text prompts through experiments on facial video datasets and general scenes. These results highlight the efficiency of our approach in handling drag-based image editing, making it a promising solution for interactive, real-time applications.

Summary

AI-Generated Summary

PDF342November 16, 2024