MagicStick: Kontrollierbare Videobearbeitung durch Steuerungsgriffe Transformationen

papers.abstract

Textbasierte Videobearbeitung hat in letzter Zeit erhebliches Interesse geweckt, um den Stil zu ändern oder Objekte mit ähnlicher Struktur zu ersetzen. Darüber hinaus zeigen wir, dass auch Eigenschaften wie Form, Größe, Position, Bewegung usw. in Videos bearbeitet werden können. Unsere zentrale Erkenntnis ist, dass die Keyframe-Transformationen spezifischer interner Merkmale (z. B. Kantenkarten von Objekten oder menschlichen Posen) leicht auf andere Frames übertragen werden können, um Generierungsanleitungen zu bieten. Daher schlagen wir MagicStick vor, eine kontrollierbare Videobearbeitungsmethode, die die Videoeigenschaften durch die Transformation der extrahierten internen Steuersignale bearbeitet. Im Detail halten wir das Erscheinungsbild bei, indem wir sowohl das vortrainierte Bilddiffusionsmodell als auch ControlNet in die zeitliche Dimension erweitern und Low-Rank-Adaptionen (LORA)-Schichten trainieren, um sie an spezifische Szenen anzupassen. Bei der Bearbeitung führen wir dann ein Inversions- und Bearbeitungsframework durch. Anders als üblich wird das feinabgestimmte ControlNet sowohl bei der Inversion als auch bei der Generierung eingeführt, um mit dem vorgeschlagenen Attention Remix zwischen den räumlichen Aufmerksamkeitskarten der Inversion und der Bearbeitung eine Aufmerksamkeitsführung zu bieten. Trotz ihrer Einfachheit ist unsere Methode die erste, die die Fähigkeit zur Bearbeitung von Videoeigenschaften aus einem vortrainierten Text-zu-Bild-Modell zeigt. Wir präsentieren Experimente an zahlreichen Beispielen innerhalb unseres einheitlichen Frameworks. Wir vergleichen auch mit formbewusster textbasierter Bearbeitung und handgefertigter Bewegungsvideogenerierung und demonstrieren unsere überlegene zeitliche Konsistenz und Bearbeitungsfähigkeit im Vergleich zu früheren Arbeiten. Der Code und die Modelle werden öffentlich zugänglich gemacht.

English

Text-based video editing has recently attracted considerable interest in changing the style or replacing the objects with a similar structure. Beyond this, we demonstrate that properties such as shape, size, location, motion, etc., can also be edited in videos. Our key insight is that the keyframe transformations of the specific internal feature (e.g., edge maps of objects or human pose), can easily propagate to other frames to provide generation guidance. We thus propose MagicStick, a controllable video editing method that edits the video properties by utilizing the transformation on the extracted internal control signals. In detail, to keep the appearance, we inflate both the pretrained image diffusion model and ControlNet to the temporal dimension and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in editing, we perform an inversion and editing framework. Differently, finetuned ControlNet is introduced in both inversion and generation for attention guidance with the proposed attention remix between the spatial attention maps of inversion and editing. Yet succinct, our method is the first method to show the ability of video property editing from the pre-trained text-to-image model. We present experiments on numerous examples within our unified framework. We also compare with shape-aware text-based editing and handcrafted motion video generation, demonstrating our superior temporal consistency and editing capability than previous works. The code and models will be made publicly available.

MagicStick: Kontrollierbare Videobearbeitung durch Steuerungsgriffe Transformationen

MagicStick: Controllable Video Editing via Control Handle Transformations

papers.abstract

Support