Transferência de Movimento de Vídeo com Transformadores de Difusão
Video Motion Transfer with Diffusion Transformers
December 10, 2024
Autores: Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati
cs.AI
Resumo
Propomos o DiTFlow, um método para transferir o movimento de um vídeo de referência para um recém-sintetizado, projetado especificamente para Transformadores de Difusão (DiT). Primeiramente, processamos o vídeo de referência com um DiT pré-treinado para analisar mapas de atenção entre quadros e extrair um sinal de movimento em forma de patch chamado de Fluxo de Movimento de Atenção (FMA). Guiamos o processo latente de remoção de ruído de forma baseada em otimização, sem necessidade de treinamento, otimizando latentes com nossa perda de FMA para gerar vídeos reproduzindo o movimento do vídeo de referência. Também aplicamos nossa estratégia de otimização aos embeddings posicionais do transformador, concedendo-nos um impulso nas capacidades de transferência de movimento sem necessidade de treinamento. Avaliamos o DiTFlow em comparação com métodos recentemente publicados, superando todos em múltiplas métricas e avaliação humana.
English
We propose DiTFlow, a method for transferring the motion of a reference video
to a newly synthesized one, designed specifically for Diffusion Transformers
(DiT). We first process the reference video with a pre-trained DiT to analyze
cross-frame attention maps and extract a patch-wise motion signal called the
Attention Motion Flow (AMF). We guide the latent denoising process in an
optimization-based, training-free, manner by optimizing latents with our AMF
loss to generate videos reproducing the motion of the reference one. We also
apply our optimization strategy to transformer positional embeddings, granting
us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow
against recently published methods, outperforming all across multiple metrics
and human evaluation.