MagicStick: Beheersbare Videobewerking via Besturingshandvat Transformaties
MagicStick: Controllable Video Editing via Control Handle Transformations
December 5, 2023
Auteurs: Yue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen
cs.AI
Samenvatting
Tekstgebaseerde videobewerking heeft recentelijk aanzienlijke belangstelling getrokken voor het veranderen van de stijl of het vervangen van objecten met een vergelijkbare structuur. Daarnaast tonen we aan dat eigenschappen zoals vorm, grootte, locatie, beweging, enz., ook in video's kunnen worden bewerkt. Onze belangrijkste inzicht is dat de keyframe-transformaties van specifieke interne kenmerken (bijvoorbeeld randenkaarten van objecten of menselijke houdingen), eenvoudig kunnen worden doorgevoerd naar andere frames om generatiebegeleiding te bieden. We stellen daarom MagicStick voor, een beheersbare videobewerkingsmethode die de video-eigenschappen bewerkt door gebruik te maken van de transformatie op de geëxtraheerde interne controlesignalen. Om het uiterlijk te behouden, breiden we zowel het vooraf getrainde beelddiffusiemodel als ControlNet uit naar de temporele dimensie en trainen we low-rank aanpassingslagen (LORA) om aan te sluiten bij specifieke scènes. Vervolgens voeren we tijdens het bewerken een inversie- en bewerkingsframework uit. Anders dan gebruikelijk wordt de fijn afgestemde ControlNet geïntroduceerd in zowel de inversie als de generatie voor aandachtbegeleiding met de voorgestelde aandachtremix tussen de ruimtelijke aandachtkaarten van inversie en bewerking. Hoewel beknopt, is onze methode de eerste methode die het vermogen toont om video-eigenschappen te bewerken vanuit het vooraf getrainde tekst-naar-beeldmodel. We presenteren experimenten op talrijke voorbeelden binnen ons geïntegreerde framework. We vergelijken ook met vormbewuste tekstgebaseerde bewerking en handgemaakte bewegingsvideogeneratie, waarbij we onze superieure temporele consistentie en bewerkingscapaciteit aantonen in vergelijking met eerdere werken. De code en modellen zullen publiekelijk beschikbaar worden gemaakt.
English
Text-based video editing has recently attracted considerable interest in
changing the style or replacing the objects with a similar structure. Beyond
this, we demonstrate that properties such as shape, size, location, motion,
etc., can also be edited in videos. Our key insight is that the keyframe
transformations of the specific internal feature (e.g., edge maps of objects or
human pose), can easily propagate to other frames to provide generation
guidance. We thus propose MagicStick, a controllable video editing method that
edits the video properties by utilizing the transformation on the extracted
internal control signals. In detail, to keep the appearance, we inflate both
the pretrained image diffusion model and ControlNet to the temporal dimension
and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in
editing, we perform an inversion and editing framework. Differently, finetuned
ControlNet is introduced in both inversion and generation for attention
guidance with the proposed attention remix between the spatial attention maps
of inversion and editing. Yet succinct, our method is the first method to show
the ability of video property editing from the pre-trained text-to-image model.
We present experiments on numerous examples within our unified framework. We
also compare with shape-aware text-based editing and handcrafted motion video
generation, demonstrating our superior temporal consistency and editing
capability than previous works. The code and models will be made publicly
available.