MagicStick: Kontrollierbare Videobearbeitung durch Steuerungsgriffe Transformationen
MagicStick: Controllable Video Editing via Control Handle Transformations
December 5, 2023
Autoren: Yue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen
cs.AI
Zusammenfassung
Textbasierte Videobearbeitung hat in letzter Zeit erhebliches Interesse geweckt, um den Stil zu ändern oder Objekte mit ähnlicher Struktur zu ersetzen. Darüber hinaus zeigen wir, dass auch Eigenschaften wie Form, Größe, Position, Bewegung usw. in Videos bearbeitet werden können. Unsere zentrale Erkenntnis ist, dass die Keyframe-Transformationen spezifischer interner Merkmale (z. B. Kantenkarten von Objekten oder menschlichen Posen) leicht auf andere Frames übertragen werden können, um Generierungsanleitungen zu bieten. Daher schlagen wir MagicStick vor, eine kontrollierbare Videobearbeitungsmethode, die die Videoeigenschaften durch die Transformation der extrahierten internen Steuersignale bearbeitet. Im Detail halten wir das Erscheinungsbild bei, indem wir sowohl das vortrainierte Bilddiffusionsmodell als auch ControlNet in die zeitliche Dimension erweitern und Low-Rank-Adaptionen (LORA)-Schichten trainieren, um sie an spezifische Szenen anzupassen. Bei der Bearbeitung führen wir dann ein Inversions- und Bearbeitungsframework durch. Anders als üblich wird das feinabgestimmte ControlNet sowohl bei der Inversion als auch bei der Generierung eingeführt, um mit dem vorgeschlagenen Attention Remix zwischen den räumlichen Aufmerksamkeitskarten der Inversion und der Bearbeitung eine Aufmerksamkeitsführung zu bieten. Trotz ihrer Einfachheit ist unsere Methode die erste, die die Fähigkeit zur Bearbeitung von Videoeigenschaften aus einem vortrainierten Text-zu-Bild-Modell zeigt. Wir präsentieren Experimente an zahlreichen Beispielen innerhalb unseres einheitlichen Frameworks. Wir vergleichen auch mit formbewusster textbasierter Bearbeitung und handgefertigter Bewegungsvideogenerierung und demonstrieren unsere überlegene zeitliche Konsistenz und Bearbeitungsfähigkeit im Vergleich zu früheren Arbeiten. Der Code und die Modelle werden öffentlich zugänglich gemacht.
English
Text-based video editing has recently attracted considerable interest in
changing the style or replacing the objects with a similar structure. Beyond
this, we demonstrate that properties such as shape, size, location, motion,
etc., can also be edited in videos. Our key insight is that the keyframe
transformations of the specific internal feature (e.g., edge maps of objects or
human pose), can easily propagate to other frames to provide generation
guidance. We thus propose MagicStick, a controllable video editing method that
edits the video properties by utilizing the transformation on the extracted
internal control signals. In detail, to keep the appearance, we inflate both
the pretrained image diffusion model and ControlNet to the temporal dimension
and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in
editing, we perform an inversion and editing framework. Differently, finetuned
ControlNet is introduced in both inversion and generation for attention
guidance with the proposed attention remix between the spatial attention maps
of inversion and editing. Yet succinct, our method is the first method to show
the ability of video property editing from the pre-trained text-to-image model.
We present experiments on numerous examples within our unified framework. We
also compare with shape-aware text-based editing and handcrafted motion video
generation, demonstrating our superior temporal consistency and editing
capability than previous works. The code and models will be made publicly
available.