Recrear Cualquier Cosa: Transferencia Semántica de Movimiento de Video Utilizando Inversión de Movimiento-Texto.
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Autores: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Resumen
En los últimos años, ha habido una tremenda mejora en la calidad de los enfoques de generación y edición de videos. Mientras que varias técnicas se centran en la edición de la apariencia, pocas abordan el movimiento. Los enfoques actuales que utilizan texto, trayectorias o cuadros delimitadores están limitados a movimientos simples, por lo que especificamos movimientos con un único video de referencia de movimiento. Además, proponemos utilizar un modelo pre-entrenado de imagen a video en lugar de un modelo de texto a video. Este enfoque nos permite preservar la apariencia exacta y la posición de un objeto o escena objetivo y ayuda a separar la apariencia del movimiento. Nuestro método, llamado inversión textual de movimiento, aprovecha nuestra observación de que los modelos de imagen a video extraen la apariencia principalmente de la entrada de imagen (latente), mientras que el incrustado de texto/imagen inyectado a través de la atención cruzada controla predominantemente el movimiento. Por lo tanto, representamos el movimiento utilizando tokens de incrustado de texto/imagen. Al operar en un incrustado de texto de movimiento inflado que contiene múltiples tokens de incrustado de texto/imagen por fotograma, logramos una granularidad temporal de movimiento alta. Una vez optimizado en el video de referencia de movimiento, este incrustado se puede aplicar a varias imágenes objetivo para generar videos con movimientos semánticamente similares. Nuestro enfoque no requiere alineación espacial entre el video de referencia de movimiento y la imagen objetivo, se generaliza en varios dominios y se puede aplicar a diversas tareas como la reencarnación de cuerpo completo y rostro, así como el control del movimiento de objetos inanimados y la cámara. Demostramos empíricamente la efectividad de nuestro método en la tarea de transferencia de movimiento de video semántico, superando significativamente a los métodos existentes en este contexto.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary