Segui il flusso: Modelli di diffusione video controllabili dal movimento utilizzando rumore distorto in tempo reale
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Autori: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Abstract
La modellazione generativa mira a trasformare rumore casuale in output strutturati. In questo lavoro, miglioriamo i modelli di diffusione video consentendo il controllo del movimento tramite campionamento di rumore latente strutturato. Ciò viene ottenuto semplicemente modificando i dati: pre-elaboriamo i video di addestramento per ottenere rumore strutturato. Di conseguenza, il nostro metodo è agnostico al design del modello di diffusione, non richiedendo modifiche alle architetture o ai flussi di addestramento del modello. In particolare, proponiamo un algoritmo di distorsione del rumore innovativo, sufficientemente veloce da essere eseguito in tempo reale, che sostituisce la casualità temporale gaussiana con rumore distorto correlato derivato dai campi di flusso ottico, preservando al contempo la gaussianità spaziale. L'efficienza del nostro algoritmo ci consente di ottimizzare i moderni modelli di base di diffusione video utilizzando rumore distorto con un overhead minimo e di fornire una soluzione completa per una vasta gamma di controlli di movimento user-friendly: controllo del movimento locale degli oggetti, controllo del movimento globale della telecamera e trasferimento di movimento. L'armonizzazione tra coerenza temporale e gaussianità spaziale nel nostro rumore distorto porta a un controllo efficace del movimento mantenendo la qualità dei pixel per frame. Estesi esperimenti e studi utente dimostrano i vantaggi del nostro metodo, rendendolo un approccio robusto e scalabile per il controllo del movimento nei modelli di diffusione video. I risultati video sono disponibili sulla nostra pagina web: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Il codice sorgente e i checkpoint del modello sono disponibili su GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary