Difusão de Vídeo Guiada por Histórico
History-Guided Video Diffusion
February 10, 2025
Autores: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
cs.AI
Resumo
A orientação sem classificador (CFG) é uma técnica fundamental para melhorar a geração condicional em modelos de difusão, possibilitando um controle mais preciso enquanto aprimora a qualidade das amostras. É natural estender essa técnica para a difusão de vídeo, que gera vídeo condicionado a um número variável de quadros de contexto, referidos coletivamente como histórico. No entanto, encontramos dois desafios-chave ao guiar com histórico de comprimento variável: arquiteturas que suportam apenas condicionamento de tamanho fixo e a observação empírica de que a desistência de histórico no estilo CFG tem um desempenho ruim. Para lidar com isso, propomos o Transformador de Forçamento de Difusão (DFoT), uma arquitetura de difusão de vídeo e um objetivo de treinamento fundamentado teoricamente que permitem condicionar de forma conjunta um número flexível de quadros de histórico. Em seguida, introduzimos a Orientação de Histórico, uma família de métodos de orientação exclusivamente habilitados pelo DFoT. Mostramos que sua forma mais simples, a orientação de histórico baunilha, já melhora significativamente a qualidade de geração de vídeo e a consistência temporal. Um método mais avançado, a orientação de histórico ao longo do tempo e da frequência, aprimora ainda mais a dinâmica do movimento, possibilita generalização composicional para históricos fora da distribuição e pode gerar vídeos extremamente longos de forma estável. Website: https://boyuan.space/history-guidance
English
Classifier-free guidance (CFG) is a key technique for improving conditional
generation in diffusion models, enabling more accurate control while enhancing
sample quality. It is natural to extend this technique to video diffusion,
which generates video conditioned on a variable number of context frames,
collectively referred to as history. However, we find two key challenges to
guiding with variable-length history: architectures that only support
fixed-size conditioning, and the empirical observation that CFG-style history
dropout performs poorly. To address this, we propose the Diffusion Forcing
Transformer (DFoT), a video diffusion architecture and theoretically grounded
training objective that jointly enable conditioning on a flexible number of
history frames. We then introduce History Guidance, a family of guidance
methods uniquely enabled by DFoT. We show that its simplest form, vanilla
history guidance, already significantly improves video generation quality and
temporal consistency. A more advanced method, history guidance across time and
frequency further enhances motion dynamics, enables compositional
generalization to out-of-distribution history, and can stably roll out
extremely long videos. Website: https://boyuan.space/history-guidance