Suivez le courant : Modèles de diffusion vidéo contrôlables par le mouvement utilisant du bruit déformé en temps réel
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Auteurs: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Résumé
La modélisation générative vise à transformer du bruit aléatoire en sorties structurées. Dans ce travail, nous améliorons les modèles de diffusion vidéo en permettant le contrôle du mouvement via un échantillonnage de bruit latent structuré. Cela est réalisé en modifiant simplement les données : nous prétraitons les vidéos d'entraînement pour obtenir un bruit structuré. Par conséquent, notre méthode est agnostique par rapport à la conception du modèle de diffusion, ne nécessitant aucune modification des architectures de modèle ou des pipelines d'entraînement. Plus précisément, nous proposons un nouvel algorithme de déformation du bruit, suffisamment rapide pour s'exécuter en temps réel, qui remplace la gaussienne temporelle aléatoire par un bruit déformé corrélé provenant des champs de flux optique, tout en préservant la gaussienne spatiale. L'efficacité de notre algorithme nous permet d'affiner les modèles de base de diffusion vidéo modernes en utilisant un bruit déformé avec un surcoût minimal, et de fournir une solution complète pour un large éventail de contrôles de mouvement conviviaux : contrôle du mouvement local d'objets, contrôle du mouvement global de la caméra et transfert de mouvement. L'harmonisation entre la cohérence temporelle et la gaussienne spatiale dans notre bruit déformé permet un contrôle efficace du mouvement tout en maintenant la qualité des pixels par image. Des expériences approfondies et des études utilisateur démontrent les avantages de notre méthode, en faisant une approche robuste et évolutive pour le contrôle du mouvement dans les modèles de diffusion vidéo. Les résultats vidéo sont disponibles sur notre page web : https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Le code source et les points de contrôle du modèle sont disponibles sur GitHub : https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary