InstantDrag: Verbesserung der Interaktivität bei der bildbasierten Bearbeitung durch Ziehen.InstantDrag: Improving Interactivity in Drag-based Image Editing
Die auf Ziehen basierende Bildbearbeitung hat in letzter Zeit an Popularität gewonnen aufgrund ihrer Interaktivität und Präzision. Trotz der Fähigkeit von Text-zu-Bild-Modellen, innerhalb einer Sekunde Proben zu generieren, hinkt die Ziehbearbeitung immer noch hinterher, aufgrund der Herausforderung, die Benutzerinteraktion genau widerzuspiegeln, während der Bildinhalt beibehalten wird. Einige bestehende Ansätze verlassen sich auf rechenaufwändige Optimierung pro Bild oder auf komplexe, anleitungs-basierte Methoden, die zusätzliche Eingaben wie Masken für bewegliche Bereiche und Textanweisungen erfordern, wodurch die Interaktivität des Bearbeitungsprozesses beeinträchtigt wird. Wir stellen InstantDrag vor, eine optimierungsfreie Pipeline, die die Interaktivität und Geschwindigkeit verbessert und nur ein Bild und eine Ziehanweisung als Eingabe benötigt. InstantDrag besteht aus zwei sorgfältig entworfenen Netzwerken: einem Ziehbedingten optischen Flussgenerator (FlowGen) und einem optischen Flussbedingten Diffusionsmodell (FlowDiffusion). InstantDrag lernt Bewegungsdynamiken für die auf Ziehen basierende Bildbearbeitung in realen Videodatensätzen, indem die Aufgabe in Bewegungsgenerierung und bewegungsbedingte Bildgenerierung zerlegt wird. Wir zeigen die Fähigkeit von InstantDrag, schnelle, fotorealistische Bearbeitungen ohne Masken oder Textanweisungen durch Experimente an Gesichtsvideodatensätzen und allgemeinen Szenen durchzuführen. Diese Ergebnisse heben die Effizienz unseres Ansatzes bei der Bewältigung der auf Ziehen basierenden Bildbearbeitung hervor und machen ihn zu einer vielversprechenden Lösung für interaktive, Echtzeit-Anwendungen.