Передача движения видео с помощью диффузионных трансформеров

Аннотация

Мы предлагаем DiTFlow, метод для передачи движения из видео-референса на вновь синтезированное видео, разработанный специально для Диффузионных Трансформеров (DiT). Сначала мы обрабатываем видео-референс с предварительно обученным DiT для анализа карт взаимного внимания между кадрами и извлечения сигнала движения патчами, называемого Потоком Движения Внимания (AMF). Мы направляем процесс латентного шумоподавления оптимизационным способом без обучения, оптимизируя латенты с нашей AMF функцией потерь для создания видео, воспроизводящих движение референсного видео. Мы также применяем нашу стратегию оптимизации к позиционным вложениям трансформера, что дает нам улучшение в возможностях передачи движения без обучения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя все по нескольким метрикам и оценке людей.

English

We propose DiTFlow, a method for transferring the motion of a reference video to a newly synthesized one, designed specifically for Diffusion Transformers (DiT). We first process the reference video with a pre-trained DiT to analyze cross-frame attention maps and extract a patch-wise motion signal called the Attention Motion Flow (AMF). We guide the latent denoising process in an optimization-based, training-free, manner by optimizing latents with our AMF loss to generate videos reproducing the motion of the reference one. We also apply our optimization strategy to transformer positional embeddings, granting us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow against recently published methods, outperforming all across multiple metrics and human evaluation.

Передача движения видео с помощью диффузионных трансформеров

Video Motion Transfer with Diffusion Transformers

Аннотация

Support