ChatPaper.aiChatPaper

流れに従う:リアルタイムに歪んだノイズを用いた動き制御可能なビデオ拡散モデル

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

January 14, 2025
著者: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong Deng, Lingxiao Li, Mohsen Mousavi, Michael Ryoo, Paul Debevec, Ning Yu
cs.AI

要旨

生成モデリングは、ランダムなノイズを構造化された出力に変換することを目指しています。 本研究では、動きを制御するために構造化された潜在ノイズサンプリングを許可することで、ビデオ拡散モデルを強化します。これは、データの変更だけで達成されます。トレーニングビデオを前処理して構造化されたノイズを生成します。その結果、当該手法は拡散モデルの設計に無関係であり、モデルのアーキテクチャやトレーニングパイプラインの変更は必要ありません。具体的には、我々は新しいノイズ変形アルゴリズムを提案しており、リアルタイムで実行可能な高速なもので、光流場から導かれた相関変形ノイズにランダムな時間的ガウシアン性を置き換え、空間的ガウシアン性を保持します。我々のアルゴリズムの効率性により、最小限のオーバーヘッドで変形ノイズを使用して最新のビデオ拡散ベースモデルを微調整し、ユーザーフレンドリーな動き制御の幅広い範囲に対するワンストップソリューションを提供します。我々の変形ノイズにおける時間的一貫性と空間的ガウシアン性の調和は、フレームごとのピクセル品質を維持しながら、効果的な動き制御につながります。包括的な実験とユーザースタディにより、当該手法の利点が示され、ビデオ拡散モデルにおける動きの制御に対する堅牢でスケーラブルなアプローチとなります。ビデオの結果は、弊社のウェブページでご覧いただけます: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow。ソースコードとモデルのチェックポイントはGitHubで入手可能です: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow。
English
Generative modeling aims to transform random noise into structured outputs. In this work, we enhance video diffusion models by allowing motion control via structured latent noise sampling. This is achieved by just a change in data: we pre-process training videos to yield structured noise. Consequently, our method is agnostic to diffusion model design, requiring no changes to model architectures or training pipelines. Specifically, we propose a novel noise warping algorithm, fast enough to run in real time, that replaces random temporal Gaussianity with correlated warped noise derived from optical flow fields, while preserving the spatial Gaussianity. The efficiency of our algorithm enables us to fine-tune modern video diffusion base models using warped noise with minimal overhead, and provide a one-stop solution for a wide range of user-friendly motion control: local object motion control, global camera movement control, and motion transfer. The harmonization between temporal coherence and spatial Gaussianity in our warped noise leads to effective motion control while maintaining per-frame pixel quality. Extensive experiments and user studies demonstrate the advantages of our method, making it a robust and scalable approach for controlling motion in video diffusion models. Video results are available on our webpage: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Source code and model checkpoints are available on GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.

Summary

AI-Generated Summary

PDF203January 22, 2025