ChatPaper.aiChatPaper

歴史に基づいたビデオ拡散

History-Guided Video Diffusion

February 10, 2025
著者: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI

要旨

分類器を使用しないガイダンス(CFG)は、拡散モデルにおける条件付き生成の向上における重要な技術であり、より正確な制御とサンプル品質の向上を可能にします。この技術をビデオ拡散に拡張することは自然であり、変数長のコンテキストフレーム(履歴として総称)に基づいてビデオを生成するビデオ拡散に適用することが望ましいです。しかし、可変長の履歴によるガイダンスには2つの主要な課題があります。それは、固定サイズの条件付けのみをサポートするアーキテクチャと、CFGスタイルの履歴ドロップアウトが性能が低いという経験的観察です。これを解決するために、我々はDiffusion Forcing Transformer(DFoT)を提案します。これは、ビデオ拡散アーキテクチャと理論的に基づいたトレーニング目的を共に提供し、柔軟な数の履歴フレームに基づく条件付けを可能にします。その後、DFoTによってユニークに可能になる一連のガイダンス手法であるHistory Guidanceを紹介します。最も単純な形態であるバニラの履歴ガイダンスですでにビデオ生成の品質と時間的一貫性が大幅に向上することを示します。さらに進んだ手法である時間と周波数を横断する履歴ガイダンスは、動きのダイナミクスをさらに向上させ、分布外の履歴に対する合成的な一般化を可能にし、非常に長いビデオを安定して展開することができます。ウェブサイト:https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

Summary

AI-Generated Summary

PDF122February 11, 2025