Recriar Qualquer Coisa: Transferência de Movimento de Vídeo Semântico Usando Inversão de Movimento-Texto
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Autores: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Resumo
Os últimos anos têm testemunhado uma tremenda melhoria na qualidade das abordagens de geração e edição de vídeo. Enquanto várias técnicas se concentram na edição de aparência, poucas abordam o movimento. As abordagens atuais que utilizam texto, trajetórias ou caixas delimitadoras estão limitadas a movimentos simples, então especificamos movimentos com um único vídeo de referência de movimento. Propomos ainda o uso de um modelo de imagem para vídeo pré-treinado em vez de um modelo de texto para vídeo. Esta abordagem nos permite preservar a aparência exata e a posição de um objeto ou cena alvo e ajuda a separar a aparência do movimento. Nosso método, chamado inversão textual de movimento, aproveita nossa observação de que os modelos de imagem para vídeo extraem principalmente a aparência da entrada de imagem (latente), enquanto a incorporação de texto/imagem injetada via atenção cruzada controla predominantemente o movimento. Representamos assim o movimento usando tokens de incorporação de texto/imagem. Ao operar em uma incorporação de texto/imagem inflada contendo vários tokens de incorporação de texto/imagem por quadro, alcançamos uma alta granularidade temporal de movimento. Uma vez otimizada no vídeo de referência de movimento, esta incorporação pode ser aplicada a várias imagens alvo para gerar vídeos com movimentos semanticamente semelhantes. Nossa abordagem não requer alinhamento espacial entre o vídeo de referência de movimento e a imagem alvo, generaliza-se em vários domínios e pode ser aplicada a diversas tarefas, como reencenação de corpo inteiro e rosto, bem como controle do movimento de objetos inanimados e da câmera. Demonstramos empiricamente a eficácia de nosso método na tarefa de transferência de movimento de vídeo semântico, superando significativamente os métodos existentes neste contexto.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary