ChatPaper.aiChatPaper

ControlVideo: Generación controlable de texto a video sin entrenamiento

ControlVideo: Training-free Controllable Text-to-Video Generation

May 22, 2023
Autores: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI

Resumen

Los modelos de difusión impulsados por texto han desbloqueado capacidades sin precedentes en la generación de imágenes, mientras que su contraparte en video aún se queda atrás debido al excesivo costo de entrenamiento del modelado temporal. Además de la carga de entrenamiento, los videos generados también sufren de inconsistencia en la apariencia y parpadeos estructurales, especialmente en la síntesis de videos largos. Para abordar estos desafíos, diseñamos un marco de trabajo sin entrenamiento llamado ControlVideo que permite una generación de texto a video natural y eficiente. ControlVideo, adaptado de ControlNet, aprovecha la consistencia estructural aproximada de secuencias de movimiento de entrada e introduce tres módulos para mejorar la generación de video. En primer lugar, para garantizar la coherencia de apariencia entre fotogramas, ControlVideo añade una interacción completamente cruzada entre fotogramas en los módulos de auto-atención. En segundo lugar, para mitigar el efecto de parpadeo, introduce un suavizador de fotogramas intercalados que emplea interpolación de fotogramas en fotogramas alternados. Finalmente, para producir videos largos de manera eficiente, utiliza un muestreador jerárquico que sintetiza por separado cada clip corto con coherencia holística. Potenciado con estos módulos, ControlVideo supera a los métodos más avanzados en pares extensos de movimiento-prompt tanto cuantitativa como cualitativamente. Notablemente, gracias a los diseños eficientes, genera tanto videos cortos como largos en cuestión de minutos utilizando una NVIDIA 2080Ti. El código está disponible en https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency and structural flickers, especially in long video synthesis. To address these challenges, we design a training-free framework called ControlVideo to enable natural and efficient text-to-video generation. ControlVideo, adapted from ControlNet, leverages coarsely structural consistency from input motion sequences, and introduces three modules to improve video generation. Firstly, to ensure appearance coherence between frames, ControlVideo adds fully cross-frame interaction in self-attention modules. Secondly, to mitigate the flicker effect, it introduces an interleaved-frame smoother that employs frame interpolation on alternated frames. Finally, to produce long videos efficiently, it utilizes a hierarchical sampler that separately synthesizes each short clip with holistic coherency. Empowered with these modules, ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs quantitatively and qualitatively. Notably, thanks to the efficient designs, it generates both short and long videos within several minutes using one NVIDIA 2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.
PDF73December 15, 2024