MagicStick: Beheersbare Videobewerking via Besturingshandvat Transformaties

Samenvatting

Tekstgebaseerde videobewerking heeft recentelijk aanzienlijke belangstelling getrokken voor het veranderen van de stijl of het vervangen van objecten met een vergelijkbare structuur. Daarnaast tonen we aan dat eigenschappen zoals vorm, grootte, locatie, beweging, enz., ook in video's kunnen worden bewerkt. Onze belangrijkste inzicht is dat de keyframe-transformaties van specifieke interne kenmerken (bijvoorbeeld randenkaarten van objecten of menselijke houdingen), eenvoudig kunnen worden doorgevoerd naar andere frames om generatiebegeleiding te bieden. We stellen daarom MagicStick voor, een beheersbare videobewerkingsmethode die de video-eigenschappen bewerkt door gebruik te maken van de transformatie op de geëxtraheerde interne controlesignalen. Om het uiterlijk te behouden, breiden we zowel het vooraf getrainde beelddiffusiemodel als ControlNet uit naar de temporele dimensie en trainen we low-rank aanpassingslagen (LORA) om aan te sluiten bij specifieke scènes. Vervolgens voeren we tijdens het bewerken een inversie- en bewerkingsframework uit. Anders dan gebruikelijk wordt de fijn afgestemde ControlNet geïntroduceerd in zowel de inversie als de generatie voor aandachtbegeleiding met de voorgestelde aandachtremix tussen de ruimtelijke aandachtkaarten van inversie en bewerking. Hoewel beknopt, is onze methode de eerste methode die het vermogen toont om video-eigenschappen te bewerken vanuit het vooraf getrainde tekst-naar-beeldmodel. We presenteren experimenten op talrijke voorbeelden binnen ons geïntegreerde framework. We vergelijken ook met vormbewuste tekstgebaseerde bewerking en handgemaakte bewegingsvideogeneratie, waarbij we onze superieure temporele consistentie en bewerkingscapaciteit aantonen in vergelijking met eerdere werken. De code en modellen zullen publiekelijk beschikbaar worden gemaakt.

English

Text-based video editing has recently attracted considerable interest in changing the style or replacing the objects with a similar structure. Beyond this, we demonstrate that properties such as shape, size, location, motion, etc., can also be edited in videos. Our key insight is that the keyframe transformations of the specific internal feature (e.g., edge maps of objects or human pose), can easily propagate to other frames to provide generation guidance. We thus propose MagicStick, a controllable video editing method that edits the video properties by utilizing the transformation on the extracted internal control signals. In detail, to keep the appearance, we inflate both the pretrained image diffusion model and ControlNet to the temporal dimension and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in editing, we perform an inversion and editing framework. Differently, finetuned ControlNet is introduced in both inversion and generation for attention guidance with the proposed attention remix between the spatial attention maps of inversion and editing. Yet succinct, our method is the first method to show the ability of video property editing from the pre-trained text-to-image model. We present experiments on numerous examples within our unified framework. We also compare with shape-aware text-based editing and handcrafted motion video generation, demonstrating our superior temporal consistency and editing capability than previous works. The code and models will be made publicly available.

MagicStick: Beheersbare Videobewerking via Besturingshandvat Transformaties

MagicStick: Controllable Video Editing via Control Handle Transformations

Samenvatting

Support