Réinterpréter Tout : Transfert de Mouvement Vidéo Sémantique par Inversion Mouvement-Texte
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Auteurs: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Résumé
Ces dernières années ont vu une amélioration considérable de la qualité des approches de génération et d'édition vidéo. Alors que plusieurs techniques se concentrent sur l'édition de l'apparence, peu abordent le mouvement. Les approches actuelles utilisant du texte, des trajectoires ou des boîtes englobantes se limitent à des mouvements simples, c'est pourquoi nous spécifions les mouvements à l'aide d'une seule vidéo de référence de mouvement. Nous proposons en outre d'utiliser un modèle pré-entraîné image-à-vidéo plutôt qu'un modèle texte-à-vidéo. Cette approche nous permet de préserver l'apparence et la position exactes d'un objet ou d'une scène cible et aide à dissocier l'apparence du mouvement. Notre méthode, appelée inversion motion-textuelle, s'appuie sur notre observation que les modèles image-à-vidéo extraient principalement l'apparence à partir de l'entrée d'image (latente), tandis que l'incorporation de texte/image injectée via l'attention croisée contrôle principalement le mouvement. Nous représentons donc le mouvement à l'aide de tokens d'incorporation de texte/image. En opérant sur une incorporation motion-textuelle gonflée contenant plusieurs tokens d'incorporation de texte/image par frame, nous obtenons une granularité temporelle élevée du mouvement. Une fois optimisée sur la vidéo de référence de mouvement, cette incorporation peut être appliquée à diverses images cibles pour générer des vidéos avec des mouvements sémantiquement similaires. Notre approche ne nécessite pas d'alignement spatial entre la vidéo de référence de mouvement et l'image cible, se généralise à divers domaines et peut être appliquée à diverses tâches telles que la réincarnation corporelle et faciale, ainsi que le contrôle du mouvement d'objets inanimés et de la caméra. Nous démontrons empiriquement l'efficacité de notre méthode dans la tâche de transfert sémantique de mouvement vidéo, surpassant significativement les méthodes existantes dans ce contexte.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary