Alles Heruitvoeren: Semantische Videobewegingsoverdracht met Beweging-Tekstuele Inversie
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Auteurs: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Samenvatting
De afgelopen jaren is er een enorme verbetering te zien geweest in de kwaliteit van videogeneratie- en bewerkingstechnieken. Hoewel verschillende technieken zich richten op het bewerken van uiterlijk, behandelen slechts weinigen beweging. Huidige benaderingen die tekst, trajecten of begrenzingsvakken gebruiken, zijn beperkt tot eenvoudige bewegingen, dus specificeren wij bewegingen met een enkele bewegingreferentievideo in plaats daarvan. Wij stellen verder voor om een vooraf getraind beeld-naar-video-model te gebruiken in plaats van een tekst-naar-video-model. Deze aanpak stelt ons in staat om het exacte uiterlijk en de positie van een doelobject of -scène te behouden en helpt om uiterlijk en beweging te ontwarren. Onze methode, genaamd motion-textual inversion, maakt gebruik van onze observatie dat beeld-naar-video-modellen uiterlijk voornamelijk uit de (latente) beeldinvoer halen, terwijl de tekst/beeld-embedding die via cross-attention wordt geïnjecteerd vooral de beweging bepaalt. Wij representeren daarom beweging met behulp van tekst/beeld-embeddingtokens. Door te werken met een uitgebreide bewegingstekst-embedding die meerdere tekst/beeld-embeddingtokens per frame bevat, bereiken we een hoge temporele beweginggranulariteit. Zodra deze embedding is geoptimaliseerd op de bewegingreferentievideo, kan deze worden toegepast op verschillende doelbeelden om video's te genereren met semantisch vergelijkbare bewegingen. Onze aanpak vereist geen ruimtelijke uitlijning tussen de bewegingreferentievideo en het doelbeeld, generaliseert over verschillende domeinen en kan worden toegepast op diverse taken zoals full-body- en gezichtsheruitvoering, evenals het beheersen van de beweging van levenloze objecten en de camera. Wij tonen empirisch de effectiviteit van onze methode aan in de taak van semantische videobewegingsoverdracht, waarbij we bestaande methoden in deze context aanzienlijk overtreffen.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.