Control-A-Video: Управляемая генерация видео из текста с использованием диффузионных моделей
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models
May 23, 2023
Авторы: Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin
cs.AI
Аннотация
В данной статье представлена управляемая модель генерации видео из текста (text-to-video, T2V), названная Video-ControlNet, которая создает видео на основе последовательности управляющих сигналов, таких как карты границ или глубины. Video-ControlNet построена на предварительно обученной условной модели генерации изображений из текста (text-to-image, T2I) путем внедрения пространственно-временного механизма самовнимания и обучаемых временных слоев для эффективного моделирования между кадрами. Предложена стратегия кондиционирования по первому кадру, которая позволяет модели генерировать видео, перенесенные из области изображений, а также видео произвольной длины в авторегрессивном режиме. Кроме того, Video-ControlNet использует новую стратегию инициализации шума на основе остатков для внесения предварительной информации о движении из входного видео, что позволяет создавать более согласованные видео. Благодаря предложенной архитектуре и стратегиям, Video-ControlNet достигает ресурсоэффективной сходимости и генерирует видео высокого качества с детализированным управлением. Многочисленные эксперименты демонстрируют успешное применение модели в различных задачах генерации видео, таких как редактирование видео и перенос стиля, превосходя предыдущие методы по согласованности и качеству. Страница проекта: https://controlavideo.github.io/
English
This paper presents a controllable text-to-video (T2V) diffusion model, named
Video-ControlNet, that generates videos conditioned on a sequence of control
signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained
conditional text-to-image (T2I) diffusion model by incorporating a
spatial-temporal self-attention mechanism and trainable temporal layers for
efficient cross-frame modeling. A first-frame conditioning strategy is proposed
to facilitate the model to generate videos transferred from the image domain as
well as arbitrary-length videos in an auto-regressive manner. Moreover,
Video-ControlNet employs a novel residual-based noise initialization strategy
to introduce motion prior from an input video, producing more coherent videos.
With the proposed architecture and strategies, Video-ControlNet can achieve
resource-efficient convergence and generate superior quality and consistent
videos with fine-grained control. Extensive experiments demonstrate its success
in various video generative tasks such as video editing and video style
transfer, outperforming previous methods in terms of consistency and quality.
Project Page: https://controlavideo.github.io/