Идти с потоком: модели диффузии видео с возможностью управления движением с использованием искаженного шума в реальном времени
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise
January 14, 2025
Авторы: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI
Аннотация
Генеративное моделирование направлено на преобразование случайного шума в структурированные выходные данные. В данной работе мы улучшаем модели диффузии видео, позволяя управлять движением с помощью выборки структурированного скрытого шума. Это достигается лишь изменением данных: мы предварительно обрабатываем обучающие видео для получения структурированного шума. Следовательно, наш метод независим от дизайна модели диффузии, не требуя изменений в архитектуре модели или процесса обучения. В частности, мы предлагаем новый алгоритм искажения шума, достаточно быстрый для работы в реальном времени, который заменяет случайную временную гауссовость на коррелированный искаженный шум, полученный из полей оптического потока, сохраняя при этом пространственную гауссовость. Эффективность нашего алгоритма позволяет настраивать современные базовые модели диффузии видео, используя искаженный шум с минимальными накладными расходами, и предоставлять удобное решение для широкого спектра управления движением: управление локальным движением объектов, глобальное управление движением камеры и передача движения. Гармония между временной согласованностью и пространственной гауссовостью в нашем искаженном шуме приводит к эффективному управлению движением, сохраняя качество пикселей на каждом кадре. Обширные эксперименты и пользовательские исследования демонстрируют преимущества нашего метода, делая его надежным и масштабируемым подходом для управления движением в моделях диффузии видео. Видеорезультаты доступны на нашем веб-сайте: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Исходный код и контрольные точки модели доступны на GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
English
Generative modeling aims to transform random noise into structured outputs.
In this work, we enhance video diffusion models by allowing motion control via
structured latent noise sampling. This is achieved by just a change in data: we
pre-process training videos to yield structured noise. Consequently, our method
is agnostic to diffusion model design, requiring no changes to model
architectures or training pipelines. Specifically, we propose a novel noise
warping algorithm, fast enough to run in real time, that replaces random
temporal Gaussianity with correlated warped noise derived from optical flow
fields, while preserving the spatial Gaussianity. The efficiency of our
algorithm enables us to fine-tune modern video diffusion base models using
warped noise with minimal overhead, and provide a one-stop solution for a wide
range of user-friendly motion control: local object motion control, global
camera movement control, and motion transfer. The harmonization between
temporal coherence and spatial Gaussianity in our warped noise leads to
effective motion control while maintaining per-frame pixel quality. Extensive
experiments and user studies demonstrate the advantages of our method, making
it a robust and scalable approach for controlling motion in video diffusion
models. Video results are available on our webpage:
https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code
and model checkpoints are available on GitHub:
https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.Summary
AI-Generated Summary