ChatPaper.aiChatPaper

ControlVideo: Бесплатное обучение для управляемой генерации видео из текста

ControlVideo: Training-free Controllable Text-to-Video Generation

May 22, 2023
Авторы: Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian
cs.AI

Аннотация

Модели диффузии, управляемые текстом, открыли беспрецедентные возможности в генерации изображений, тогда как их видеоаналоги все еще отстают из-за чрезмерных затрат на обучение временному моделированию. Помимо сложностей с обучением, генерируемые видео также страдают от несогласованности внешнего вида и структурного мерцания, особенно при синтезе длинных видео. Чтобы решить эти проблемы, мы разработали не требующий обучения фреймворк под названием ControlVideo, который обеспечивает естественную и эффективную генерацию видео из текста. ControlVideo, адаптированный из ControlNet, использует грубую структурную согласованность из входных последовательностей движений и вводит три модуля для улучшения генерации видео. Во-первых, для обеспечения согласованности внешнего вида между кадрами ControlVideo добавляет полное межкадровое взаимодействие в модулях self-attention. Во-вторых, для смягчения эффекта мерцания он вводит сглаживатель чередующихся кадров, который применяет интерполяцию кадров на чередующихся кадрах. Наконец, для эффективного создания длинных видео используется иерархический сэмплер, который отдельно синтезирует каждый короткий клип с сохранением целостной согласованности. Благодаря этим модулям ControlVideo превосходит современные методы как количественно, так и качественно на множестве пар "движение-подсказка". Примечательно, что благодаря эффективной конструкции он генерирует как короткие, так и длинные видео в течение нескольких минут с использованием одной видеокарты NVIDIA 2080Ti. Код доступен по адресу https://github.com/YBYBZhang/ControlVideo.
English
Text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency and structural flickers, especially in long video synthesis. To address these challenges, we design a training-free framework called ControlVideo to enable natural and efficient text-to-video generation. ControlVideo, adapted from ControlNet, leverages coarsely structural consistency from input motion sequences, and introduces three modules to improve video generation. Firstly, to ensure appearance coherence between frames, ControlVideo adds fully cross-frame interaction in self-attention modules. Secondly, to mitigate the flicker effect, it introduces an interleaved-frame smoother that employs frame interpolation on alternated frames. Finally, to produce long videos efficiently, it utilizes a hierarchical sampler that separately synthesizes each short clip with holistic coherency. Empowered with these modules, ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs quantitatively and qualitatively. Notably, thanks to the efficient designs, it generates both short and long videos within several minutes using one NVIDIA 2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.
PDF73December 15, 2024