Fluir con el flujo: Modelos de difusión de video controlables por movimiento utilizando ruido deformado en tiempo real
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Autores: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Resumen
La modelización generativa tiene como objetivo transformar ruido aleatorio en salidas estructuradas. En este trabajo, mejoramos los modelos de difusión de video al permitir el control del movimiento a través del muestreo de ruido latente estructurado. Esto se logra simplemente con un cambio en los datos: preprocesamos videos de entrenamiento para producir ruido estructurado. En consecuencia, nuestro método es independiente del diseño del modelo de difusión, no requiriendo cambios en las arquitecturas de los modelos o en los flujos de entrenamiento. Específicamente, proponemos un algoritmo novedoso de deformación de ruido, lo suficientemente rápido para ejecutarse en tiempo real, que reemplaza la aleatoriedad temporal gaussiana con ruido deformado correlacionado derivado de campos de flujo óptico, al tiempo que preserva la gaussianidad espacial. La eficiencia de nuestro algoritmo nos permite ajustar modelos de base de difusión de video modernos utilizando ruido deformado con un sobrecoste mínimo, y proporcionar una solución integral para una amplia gama de controles de movimiento amigables para el usuario: control de movimiento de objetos locales, control de movimiento de cámara global y transferencia de movimiento. La armonización entre coherencia temporal y gaussianidad espacial en nuestro ruido deformado conduce a un control de movimiento efectivo manteniendo la calidad de píxeles por cuadro. Experimentos extensos y estudios de usuarios demuestran las ventajas de nuestro método, convirtiéndolo en un enfoque robusto y escalable para controlar el movimiento en modelos de difusión de video. Los resultados en video están disponibles en nuestra página web: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. El código fuente y los puntos de control del modelo están disponibles en GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary