ChatPaper.aiChatPaper

Diffusion Vidéo Guidée par l'Histoire

History-Guided Video Diffusion

February 10, 2025
Auteurs: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI

Résumé

Le Guidage sans classificateur (CFG) est une technique clé pour améliorer la génération conditionnelle dans les modèles de diffusion, permettant un contrôle plus précis tout en améliorant la qualité des échantillons. Il est naturel d'étendre cette technique à la diffusion vidéo, qui génère des vidéos conditionnées par un nombre variable de trames de contexte, collectivement appelées historique. Cependant, nous identifions deux défis clés pour le guidage avec un historique de longueur variable : les architectures qui ne prennent en charge que des conditionnements de taille fixe, et l'observation empirique selon laquelle l'abandon d'historique de style CFG est peu performant. Pour résoudre cela, nous proposons le Transformateur Forçant la Diffusion (DFoT), une architecture de diffusion vidéo et un objectif d'entraînement théoriquement fondé qui permettent conjointement de conditionner un nombre flexible de trames d'historique. Nous introduisons ensuite le Guidage Historique, une famille de méthodes de guidage rendues possibles de manière unique par le DFoT. Nous montrons que sa forme la plus simple, le guidage historique vanille, améliore déjà significativement la qualité de génération vidéo et la cohérence temporelle. Une méthode plus avancée, le guidage historique à travers le temps et la fréquence, améliore encore davantage la dynamique du mouvement, permet une généralisation compositionnelle à un historique hors distribution, et peut dérouler de manière stable des vidéos extrêmement longues. Site Web : https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

Summary

AI-Generated Summary

PDF122February 11, 2025