ControlVideo: Trainingsfreie kontrollierbare Text-zu-Video-Generierung
ControlVideo: Training-free Controllable Text-to-Video Generation
May 22, 2023
Autoren: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI
Zusammenfassung
Textgesteuerte Diffusionsmodelle haben beispiellose Fähigkeiten in der Bildgenerierung freigesetzt, während ihr Video-Pendant aufgrund der übermäßigen Trainingskosten der zeitlichen Modellierung noch hinterherhinkt. Neben der Trainingslast leiden die generierten Videos auch unter Inkonsistenzen im Erscheinungsbild und strukturellen Flackereffekten, insbesondere bei der Synthese langer Videos. Um diese Herausforderungen zu bewältigen, haben wir ein trainingsfreies Framework namens ControlVideo entwickelt, das eine natürliche und effiziente Text-zu-Video-Generierung ermöglicht. ControlVideo, das von ControlNet adaptiert wurde, nutzt die grobe strukturelle Konsistenz aus eingegebenen Bewegungssequenzen und führt drei Module ein, um die Videogenerierung zu verbessern. Erstens fügt ControlVideo, um die Erscheinungskohärenz zwischen den Bildern zu gewährleisten, eine vollständige Interaktion zwischen den Bildern in den Selbstaufmerksamkeitsmodulen hinzu. Zweitens wird ein Interleaved-Frame-Smoother eingeführt, der den Flackereffekt durch Frame-Interpolation auf alternierten Bildern reduziert. Schließlich wird ein hierarchischer Sampler verwendet, der effizient lange Videos erzeugt, indem jeder kurze Clip separat mit ganzheitlicher Kohärenz synthetisiert wird. Mit diesen Modulen ausgestattet, übertrifft ControlVideo den Stand der Technik bei umfangreichen Bewegungs-Prompt-Paaren sowohl quantitativ als auch qualitativ. Bemerkenswerterweise generiert es dank der effizienten Designs sowohl kurze als auch lange Videos innerhalb weniger Minuten mit einer NVIDIA 2080Ti. Der Code ist verfügbar unter https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image
generation, whereas their video counterpart still lags behind due to the
excessive training cost of temporal modeling. Besides the training burden, the
generated videos also suffer from appearance inconsistency and structural
flickers, especially in long video synthesis. To address these challenges, we
design a training-free framework called ControlVideo to enable
natural and efficient text-to-video generation. ControlVideo, adapted from
ControlNet, leverages coarsely structural consistency from input motion
sequences, and introduces three modules to improve video generation. Firstly,
to ensure appearance coherence between frames, ControlVideo adds fully
cross-frame interaction in self-attention modules. Secondly, to mitigate the
flicker effect, it introduces an interleaved-frame smoother that employs frame
interpolation on alternated frames. Finally, to produce long videos
efficiently, it utilizes a hierarchical sampler that separately synthesizes
each short clip with holistic coherency. Empowered with these modules,
ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs
quantitatively and qualitatively. Notably, thanks to the efficient designs, it
generates both short and long videos within several minutes using one NVIDIA
2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.