Fluxo Contínuo: Modelos de Difusão de Vídeo Controláveis por Movimento Usando Ruído Distorcido em Tempo Real
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Autores: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Resumo
A modelagem generativa tem como objetivo transformar ruído aleatório em saídas estruturadas. Neste trabalho, aprimoramos os modelos de difusão de vídeo ao permitir o controle de movimento por meio da amostragem estruturada de ruído latente. Isso é alcançado apenas com uma mudança nos dados: pré-processamos vídeos de treinamento para obter ruído estruturado. Consequentemente, nosso método é agnóstico em relação ao design do modelo de difusão, não exigindo alterações nas arquiteturas de modelo ou nos pipelines de treinamento. Especificamente, propomos um algoritmo de distorção de ruído inovador, rápido o suficiente para ser executado em tempo real, que substitui a aleatoriedade temporal gaussiana por ruído distorcido correlacionado derivado de campos de fluxo óptico, preservando a gaussianidade espacial. A eficiência de nosso algoritmo nos permite ajustar modelos de base de difusão de vídeo modernos usando ruído distorcido com um mínimo de sobrecarga, fornecendo uma solução completa para uma ampla gama de controle de movimento amigável ao usuário: controle de movimento de objeto local, controle de movimento de câmera global e transferência de movimento. A harmonização entre coerência temporal e gaussianidade espacial em nosso ruído distorcido resulta em um controle de movimento eficaz, mantendo a qualidade de pixel por quadro. Experimentos extensivos e estudos de usuários demonstram as vantagens de nosso método, tornando-o uma abordagem robusta e escalável para controlar o movimento em modelos de difusão de vídeo. Os resultados em vídeo estão disponíveis em nossa página da web: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. O código-fonte e os pontos de verificação do modelo estão disponíveis no GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary