ChatPaper.aiChatPaper

Geschiedenisgestuurde Videoverspreiding

History-Guided Video Diffusion

February 10, 2025
Auteurs: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI

Samenvatting

Classifier-free guidance (CFG) is een belangrijke techniek om de conditionele generatie in diffusiemodellen te verbeteren, waardoor nauwkeurigere controle mogelijk is terwijl de kwaliteit van de samples wordt verbeterd. Het is logisch om deze techniek uit te breiden naar video diffusie, die video genereert op basis van een variabel aantal contextframes, gezamenlijk aangeduid als geschiedenis. We identificeren echter twee belangrijke uitdagingen bij het sturen met geschiedenis van variabele lengte: architecturen die alleen vaste-conditionering ondersteunen, en de empirische observatie dat CFG-stijl geschiedenisuitval slecht presteert. Om dit aan te pakken, stellen we de Diffusion Forcing Transformer (DFoT) voor, een video diffusie-architectuur en theoretisch gefundeerd trainingsdoel dat gezamenlijk conditionering op een flexibel aantal geschiedenisframes mogelijk maakt. Vervolgens introduceren we History Guidance, een reeks begeleidingsmethoden die uniek mogelijk worden gemaakt door DFoT. We tonen aan dat de eenvoudigste vorm ervan, vanille geschiedenisbegeleiding, de kwaliteit van videogeneratie en temporele consistentie aanzienlijk verbetert. Een geavanceerdere methode, geschiedenisbegeleiding over tijd en frequentie, verbetert verder de bewegingsdynamiek, maakt compositorische generalisatie naar geschiedenis buiten de distributie mogelijk, en kan stabiel zeer lange video's genereren. Website: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance

Summary

AI-Generated Summary

PDF122February 11, 2025