ControlVideo: Trainingsvrije beheerbare tekst-naar-videogeneratie
ControlVideo: Training-free Controllable Text-to-Video Generation
May 22, 2023
Auteurs: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI
Samenvatting
Tekstgestuurde diffusiemodellen hebben ongekende mogelijkheden ontgrendeld in beeldgeneratie, terwijl hun videotegenhanger nog achterblijft vanwege de buitensporige trainingskosten van temporele modellering. Naast de trainingslast lijden de gegenereerde video's ook aan inconsistentie in uiterlijk en structurele flikkeringen, vooral bij lange videosynthese. Om deze uitdagingen aan te pakken, hebben we een trainingsvrij raamwerk ontworpen genaamd ControlVideo om natuurlijke en efficiënte tekst-naar-video-generatie mogelijk te maken. ControlVideo, aangepast van ControlNet, benut grove structurele consistentie van ingevoerde bewegingssequenties en introduceert drie modules om videogeneratie te verbeteren. Ten eerste, om uiterlijke samenhang tussen frames te waarborgen, voegt ControlVideo volledige cross-frame-interactie toe in self-attention-modules. Ten tweede, om het flikkereffect te verminderen, introduceert het een interleaved-frame smoother die frame-interpolatie toepast op afwisselende frames. Tot slot, om efficiënt lange video's te produceren, maakt het gebruik van een hiërarchische sampler die elk kort clipje afzonderlijk synthetiseert met holistische samenhang. Uitgerust met deze modules, overtreft ControlVideo de state-of-the-art op uitgebreide bewegingsprompt-paren zowel kwantitatief als kwalitatief. Opmerkelijk is dat het, dankzij de efficiënte ontwerpen, zowel korte als lange video's binnen enkele minuten genereert met één NVIDIA 2080Ti. Code is beschikbaar op https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image
generation, whereas their video counterpart still lags behind due to the
excessive training cost of temporal modeling. Besides the training burden, the
generated videos also suffer from appearance inconsistency and structural
flickers, especially in long video synthesis. To address these challenges, we
design a training-free framework called ControlVideo to enable
natural and efficient text-to-video generation. ControlVideo, adapted from
ControlNet, leverages coarsely structural consistency from input motion
sequences, and introduces three modules to improve video generation. Firstly,
to ensure appearance coherence between frames, ControlVideo adds fully
cross-frame interaction in self-attention modules. Secondly, to mitigate the
flicker effect, it introduces an interleaved-frame smoother that employs frame
interpolation on alternated frames. Finally, to produce long videos
efficiently, it utilizes a hierarchical sampler that separately synthesizes
each short clip with holistic coherency. Empowered with these modules,
ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs
quantitatively and qualitatively. Notably, thanks to the efficient designs, it
generates both short and long videos within several minutes using one NVIDIA
2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.