Alles nachstellen: Semantisches Video-Bewegungsübertragung unter Verwendung von Bewegungs-Text-Inversion.
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Autoren: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Zusammenfassung
In den letzten Jahren hat die Qualität von Videoerstellung und -bearbeitungsansätzen erheblich zugenommen. Während sich mehrere Techniken auf die Bearbeitung des Erscheinungsbilds konzentrieren, behandeln nur wenige die Bewegung. Aktuelle Ansätze, die Text, Trajektorien oder Bounding-Boxen verwenden, sind auf einfache Bewegungen beschränkt. Daher spezifizieren wir Bewegungen mit einem einzelnen Bewegungsreferenzvideo. Darüber hinaus schlagen wir vor, ein vorab trainiertes Bild-zu-Video-Modell anstelle eines Text-zu-Video-Modells zu verwenden. Dieser Ansatz ermöglicht es uns, das genaue Erscheinungsbild und die Position eines Zielobjekts oder einer Szene zu bewahren und hilft dabei, das Erscheinungsbild von der Bewegung zu trennen. Unsere Methode, genannt Bewegungstext-Inversion, basiert auf unserer Beobachtung, dass Bild-zu-Video-Modelle das Erscheinungsbild hauptsächlich aus der (latenten) Bildquelle extrahieren, während die Text-/Bild-Einbettung, die über Cross-Attention injiziert wird, die Bewegung hauptsächlich steuert. Wir stellen Bewegungen daher mit Text-/Bild-Einbettungstokens dar. Durch die Bearbeitung einer aufgeblasenen Bewegungs-Text-Einbettung, die mehrere Text-/Bild-Einbettungstokens pro Frame enthält, erreichen wir eine hohe zeitliche Bewegungsgranularität. Sobald diese Einbettung auf das Bewegungsreferenzvideo optimiert ist, kann sie auf verschiedene Zielbilder angewendet werden, um Videos mit semantisch ähnlichen Bewegungen zu generieren. Unser Ansatz erfordert keine räumliche Ausrichtung zwischen dem Bewegungsreferenzvideo und dem Zielbild, generalisiert über verschiedene Domänen und kann auf verschiedene Aufgaben wie Ganzkörper- und Gesichtsnachstellung sowie die Steuerung der Bewegung von unbelebten Objekten und der Kamera angewendet werden. Wir zeigen empirisch die Wirksamkeit unserer Methode in der semantischen Video-Bewegungsübertragungsaufgabe und übertreffen bestehende Methoden in diesem Kontext signifikant.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary