ChatPaper.aiChatPaper

Transferência de Movimento de Vídeo com Transformadores de Difusão

Video Motion Transfer with Diffusion Transformers

December 10, 2024
Autores: Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati
cs.AI

Resumo

Propomos o DiTFlow, um método para transferir o movimento de um vídeo de referência para um recém-sintetizado, projetado especificamente para Transformadores de Difusão (DiT). Primeiramente, processamos o vídeo de referência com um DiT pré-treinado para analisar mapas de atenção entre quadros e extrair um sinal de movimento em forma de patch chamado de Fluxo de Movimento de Atenção (FMA). Guiamos o processo latente de remoção de ruído de forma baseada em otimização, sem necessidade de treinamento, otimizando latentes com nossa perda de FMA para gerar vídeos reproduzindo o movimento do vídeo de referência. Também aplicamos nossa estratégia de otimização aos embeddings posicionais do transformador, concedendo-nos um impulso nas capacidades de transferência de movimento sem necessidade de treinamento. Avaliamos o DiTFlow em comparação com métodos recentemente publicados, superando todos em múltiplas métricas e avaliação humana.
English
We propose DiTFlow, a method for transferring the motion of a reference video to a newly synthesized one, designed specifically for Diffusion Transformers (DiT). We first process the reference video with a pre-trained DiT to analyze cross-frame attention maps and extract a patch-wise motion signal called the Attention Motion Flow (AMF). We guide the latent denoising process in an optimization-based, training-free, manner by optimizing latents with our AMF loss to generate videos reproducing the motion of the reference one. We also apply our optimization strategy to transformer positional embeddings, granting us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow against recently published methods, outperforming all across multiple metrics and human evaluation.
PDF174December 11, 2024