ControlVideo: Generazione Controllabile di Video da Testo Senza Addestramento
ControlVideo: Training-free Controllable Text-to-Video Generation
May 22, 2023
Autori: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI
Abstract
I modelli di diffusione guidati da testo hanno sbloccato capacità senza precedenti nella generazione di immagini, mentre la loro controparte video è ancora in ritardo a causa degli eccessivi costi di addestramento richiesti per la modellazione temporale. Oltre al carico di addestramento, i video generati soffrono anche di incoerenza nell'aspetto e di sfarfallio strutturale, specialmente nella sintesi di video lunghi. Per affrontare queste sfide, abbiamo progettato un framework senza addestramento chiamato ControlVideo per abilitare una generazione video da testo naturale ed efficiente. ControlVideo, adattato da ControlNet, sfrutta la coerenza strutturale approssimativa proveniente dalle sequenze di movimento in input e introduce tre moduli per migliorare la generazione video. In primo luogo, per garantire la coerenza dell'aspetto tra i fotogrammi, ControlVideo aggiunge un'interazione completamente incrociata tra i fotogrammi nei moduli di self-attention. In secondo luogo, per mitigare l'effetto di sfarfallio, introduce uno smussatore a fotogrammi intervallati che utilizza l'interpolazione di fotogrammi su fotogrammi alternati. Infine, per produrre video lunghi in modo efficiente, utilizza un campionatore gerarchico che sintetizza separatamente ogni breve clip con coerenza complessiva. Potenziato da questi moduli, ControlVideo supera lo stato dell'arte su coppie estese di prompt di movimento sia quantitativamente che qualitativamente. In particolare, grazie ai design efficienti, genera sia video brevi che lunghi in pochi minuti utilizzando una NVIDIA 2080Ti. Il codice è disponibile all'indirizzo https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image
generation, whereas their video counterpart still lags behind due to the
excessive training cost of temporal modeling. Besides the training burden, the
generated videos also suffer from appearance inconsistency and structural
flickers, especially in long video synthesis. To address these challenges, we
design a training-free framework called ControlVideo to enable
natural and efficient text-to-video generation. ControlVideo, adapted from
ControlNet, leverages coarsely structural consistency from input motion
sequences, and introduces three modules to improve video generation. Firstly,
to ensure appearance coherence between frames, ControlVideo adds fully
cross-frame interaction in self-attention modules. Secondly, to mitigate the
flicker effect, it introduces an interleaved-frame smoother that employs frame
interpolation on alternated frames. Finally, to produce long videos
efficiently, it utilizes a hierarchical sampler that separately synthesizes
each short clip with holistic coherency. Empowered with these modules,
ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs
quantitatively and qualitatively. Notably, thanks to the efficient designs, it
generates both short and long videos within several minutes using one NVIDIA
2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.