Diffusione Video Guidata dalla Storia
History-Guided Video Diffusion
February 10, 2025
Autori: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI
Abstract
La guida senza classificatore (CFG) è una tecnica chiave per migliorare la generazione condizionale nei modelli di diffusione, consentendo un controllo più accurato mentre si migliora la qualità del campione. È naturale estendere questa tecnica alla diffusione video, che genera video condizionati da un numero variabile di frame di contesto, collettivamente indicati come storia. Tuttavia, individuiamo due sfide chiave nel guidare con una storia di lunghezza variabile: architetture che supportano solo il condizionamento di dimensioni fisse e l'osservazione empirica che lo stile di dropout della storia CFG si comporta male. Per affrontare ciò, proponiamo il Transformer Forzante di Diffusione (DFoT), un'architettura di diffusione video e un obiettivo di addestramento teoricamente fondato che consentono congiuntamente il condizionamento su un numero flessibile di frame di storia. Introduciamo quindi la Guida alla Storia, una famiglia di metodi di guida unicamente abilitati da DFoT. Mostreremo che la sua forma più semplice, la guida alla storia vaniglia, migliora già significativamente la qualità della generazione video e la coerenza temporale. Un metodo più avanzato, la guida alla storia attraverso il tempo e la frequenza, potenzia ulteriormente la dinamica del movimento, consente la generalizzazione compositiva a storie fuori distribuzione e può gestire in modo stabile video estremamente lunghi. Sito web: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional
generation in diffusion models, enabling more accurate control while enhancing
sample quality. It is natural to extend this technique to video diffusion,
which generates video conditioned on a variable number of context frames,
collectively referred to as history. However, we find two key challenges to
guiding with variable-length history: architectures that only support
fixed-size conditioning, and the empirical observation that CFG-style history
dropout performs poorly. To address this, we propose the Diffusion Forcing
Transformer (DFoT), a video diffusion architecture and theoretically grounded
training objective that jointly enable conditioning on a flexible number of
history frames. We then introduce History Guidance, a family of guidance
methods uniquely enabled by DFoT. We show that its simplest form, vanilla
history guidance, already significantly improves video generation quality and
temporal consistency. A more advanced method, history guidance across time and
frequency further enhances motion dynamics, enables compositional
generalization to out-of-distribution history, and can stably roll out
extremely long videos. Website: https://boyuan.space/history-guidanceSummary
AI-Generated Summary