ControlVideo: Geração Controlável de Vídeo a partir de Texto sem Treinamento
ControlVideo: Training-free Controllable Text-to-Video Generation
May 22, 2023
Autores: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI
Resumo
Modelos de difusão orientados por texto desbloquearam habilidades sem precedentes na geração de imagens, enquanto sua contraparte para vídeo ainda está atrás devido ao custo excessivo de treinamento da modelagem temporal. Além do ônus de treinamento, os vídeos gerados também sofrem com inconsistência de aparência e cintilações estruturais, especialmente na síntese de vídeos longos. Para enfrentar esses desafios, projetamos uma estrutura sem necessidade de treinamento chamada ControlVideo para permitir a geração natural e eficiente de texto para vídeo. O ControlVideo, adaptado do ControlNet, aproveita a consistência estrutural grosseira de sequências de movimento de entrada e introduz três módulos para melhorar a geração de vídeo. Primeiramente, para garantir coerência de aparência entre os quadros, o ControlVideo adiciona interação totalmente cruzada entre quadros nos módulos de auto-atenção. Em segundo lugar, para mitigar o efeito de cintilação, ele introduz um suavizador de quadros intercalados que emprega interpolação de quadros em quadros alternados. Por fim, para produzir vídeos longos de forma eficiente, ele utiliza um amostrador hierárquico que sintetiza separadamente cada clipe curto com coerência holística. Dotado desses módulos, o ControlVideo supera os state-of-the-arts em pares extensos de movimento-prompt quantitativa e qualitativamente. Notavelmente, graças aos designs eficientes, ele gera tanto vídeos curtos quanto longos em alguns minutos usando uma NVIDIA 2080Ti. O código está disponível em https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image
generation, whereas their video counterpart still lags behind due to the
excessive training cost of temporal modeling. Besides the training burden, the
generated videos also suffer from appearance inconsistency and structural
flickers, especially in long video synthesis. To address these challenges, we
design a training-free framework called ControlVideo to enable
natural and efficient text-to-video generation. ControlVideo, adapted from
ControlNet, leverages coarsely structural consistency from input motion
sequences, and introduces three modules to improve video generation. Firstly,
to ensure appearance coherence between frames, ControlVideo adds fully
cross-frame interaction in self-attention modules. Secondly, to mitigate the
flicker effect, it introduces an interleaved-frame smoother that employs frame
interpolation on alternated frames. Finally, to produce long videos
efficiently, it utilizes a hierarchical sampler that separately synthesizes
each short clip with holistic coherency. Empowered with these modules,
ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs
quantitatively and qualitatively. Notably, thanks to the efficient designs, it
generates both short and long videos within several minutes using one NVIDIA
2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.