MagicStick: Edición de Video Controlable mediante Transformaciones con Mango de Control
MagicStick: Controllable Video Editing via Control Handle Transformations
December 5, 2023
Autores: Yue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen
cs.AI
Resumen
La edición de vídeo basada en texto ha atraído recientemente un interés considerable para cambiar el estilo o reemplazar objetos con una estructura similar. Más allá de esto, demostramos que propiedades como la forma, el tamaño, la ubicación, el movimiento, etc., también pueden editarse en vídeos. Nuestra idea clave es que las transformaciones de fotogramas clave de características internas específicas (por ejemplo, mapas de bordes de objetos o la pose humana) pueden propagarse fácilmente a otros fotogramas para proporcionar una guía de generación. Por lo tanto, proponemos MagicStick, un método de edición de vídeo controlable que edita las propiedades del vídeo utilizando la transformación de las señales de control internas extraídas. En detalle, para mantener la apariencia, expandimos tanto el modelo de difusión de imágenes preentrenado como ControlNet a la dimensión temporal y entrenamos capas de adaptación de bajo rango (LORA) para ajustarse a escenas específicas. Luego, durante la edición, implementamos un marco de inversión y edición. De manera diferente, se introduce un ControlNet ajustado tanto en la inversión como en la generación para guiar la atención con la propuesta de mezcla de atención entre los mapas de atención espacial de la inversión y la edición. Aunque sucinto, nuestro método es el primero en demostrar la capacidad de edición de propiedades de vídeo a partir de un modelo preentrenado de texto a imagen. Presentamos experimentos en numerosos ejemplos dentro de nuestro marco unificado. También comparamos con la edición basada en texto consciente de la forma y la generación de vídeo con movimiento manual, demostrando nuestra superior consistencia temporal y capacidad de edición en comparación con trabajos anteriores. El código y los modelos estarán disponibles públicamente.
English
Text-based video editing has recently attracted considerable interest in
changing the style or replacing the objects with a similar structure. Beyond
this, we demonstrate that properties such as shape, size, location, motion,
etc., can also be edited in videos. Our key insight is that the keyframe
transformations of the specific internal feature (e.g., edge maps of objects or
human pose), can easily propagate to other frames to provide generation
guidance. We thus propose MagicStick, a controllable video editing method that
edits the video properties by utilizing the transformation on the extracted
internal control signals. In detail, to keep the appearance, we inflate both
the pretrained image diffusion model and ControlNet to the temporal dimension
and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in
editing, we perform an inversion and editing framework. Differently, finetuned
ControlNet is introduced in both inversion and generation for attention
guidance with the proposed attention remix between the spatial attention maps
of inversion and editing. Yet succinct, our method is the first method to show
the ability of video property editing from the pre-trained text-to-image model.
We present experiments on numerous examples within our unified framework. We
also compare with shape-aware text-based editing and handcrafted motion video
generation, demonstrating our superior temporal consistency and editing
capability than previous works. The code and models will be made publicly
available.