ControlVideo : Génération contrôlée de vidéos à partir de texte sans apprentissage
ControlVideo: Training-free Controllable Text-to-Video Generation
May 22, 2023
Auteurs: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI
Résumé
Les modèles de diffusion pilotés par texte ont débloqué des capacités sans précédent en génération d'images, tandis que leur équivalent vidéo reste à la traîne en raison des coûts de formation excessifs liés à la modélisation temporelle. Outre le fardeau de l'entraînement, les vidéos générées souffrent également d'incohérences d'apparence et de scintillements structurels, en particulier dans la synthèse de vidéos longues. Pour relever ces défis, nous concevons un cadre sans entraînement appelé ControlVideo, permettant une génération texte-à-vidéo naturelle et efficace. ControlVideo, adapté de ControlNet, exploite la cohérence structurelle approximative des séquences de mouvement en entrée et introduit trois modules pour améliorer la génération vidéo. Premièrement, pour assurer la cohérence d'apparence entre les images, ControlVideo ajoute une interaction inter-images complète dans les modules d'auto-attention. Deuxièmement, pour atténuer l'effet de scintillement, il introduit un lisseur d'images entrelacées qui utilise l'interpolation d'images sur des images alternées. Enfin, pour produire des vidéos longues de manière efficace, il utilise un échantillonneur hiérarchique qui synthétise séparément chaque court clip avec une cohérence globale. Doté de ces modules, ControlVideo surpasse les méthodes de pointe sur de nombreuses paires de mouvements-prompt, tant quantitativement que qualitativement. Notamment, grâce à ses conceptions efficaces, il génère à la fois des vidéos courtes et longues en quelques minutes en utilisant une seule NVIDIA 2080Ti. Le code est disponible à l'adresse https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image
generation, whereas their video counterpart still lags behind due to the
excessive training cost of temporal modeling. Besides the training burden, the
generated videos also suffer from appearance inconsistency and structural
flickers, especially in long video synthesis. To address these challenges, we
design a training-free framework called ControlVideo to enable
natural and efficient text-to-video generation. ControlVideo, adapted from
ControlNet, leverages coarsely structural consistency from input motion
sequences, and introduces three modules to improve video generation. Firstly,
to ensure appearance coherence between frames, ControlVideo adds fully
cross-frame interaction in self-attention modules. Secondly, to mitigate the
flicker effect, it introduces an interleaved-frame smoother that employs frame
interpolation on alternated frames. Finally, to produce long videos
efficiently, it utilizes a hierarchical sampler that separately synthesizes
each short clip with holistic coherency. Empowered with these modules,
ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs
quantitatively and qualitatively. Notably, thanks to the efficient designs, it
generates both short and long videos within several minutes using one NVIDIA
2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.