ControlVideo: Geração Controlável de Vídeo a partir de Texto sem Treinamento

Resumo

Modelos de difusão orientados por texto desbloquearam habilidades sem precedentes na geração de imagens, enquanto sua contraparte para vídeo ainda está atrás devido ao custo excessivo de treinamento da modelagem temporal. Além do ônus de treinamento, os vídeos gerados também sofrem com inconsistência de aparência e cintilações estruturais, especialmente na síntese de vídeos longos. Para enfrentar esses desafios, projetamos uma estrutura sem necessidade de treinamento chamada ControlVideo para permitir a geração natural e eficiente de texto para vídeo. O ControlVideo, adaptado do ControlNet, aproveita a consistência estrutural grosseira de sequências de movimento de entrada e introduz três módulos para melhorar a geração de vídeo. Primeiramente, para garantir coerência de aparência entre os quadros, o ControlVideo adiciona interação totalmente cruzada entre quadros nos módulos de auto-atenção. Em segundo lugar, para mitigar o efeito de cintilação, ele introduz um suavizador de quadros intercalados que emprega interpolação de quadros em quadros alternados. Por fim, para produzir vídeos longos de forma eficiente, ele utiliza um amostrador hierárquico que sintetiza separadamente cada clipe curto com coerência holística. Dotado desses módulos, o ControlVideo supera os state-of-the-arts em pares extensos de movimento-prompt quantitativa e qualitativamente. Notavelmente, graças aos designs eficientes, ele gera tanto vídeos curtos quanto longos em alguns minutos usando uma NVIDIA 2080Ti. O código está disponível em https://github.com/YBYBZhang/ControlVideo.

English

Text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency and structural flickers, especially in long video synthesis. To address these challenges, we design a training-free framework called ControlVideo to enable natural and efficient text-to-video generation. ControlVideo, adapted from ControlNet, leverages coarsely structural consistency from input motion sequences, and introduces three modules to improve video generation. Firstly, to ensure appearance coherence between frames, ControlVideo adds fully cross-frame interaction in self-attention modules. Secondly, to mitigate the flicker effect, it introduces an interleaved-frame smoother that employs frame interpolation on alternated frames. Finally, to produce long videos efficiently, it utilizes a hierarchical sampler that separately synthesizes each short clip with holistic coherency. Empowered with these modules, ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs quantitatively and qualitatively. Notably, thanks to the efficient designs, it generates both short and long videos within several minutes using one NVIDIA 2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.

ControlVideo: Geração Controlável de Vídeo a partir de Texto sem Treinamento

ControlVideo: Training-free Controllable Text-to-Video Generation

Resumo

Support