FreeNoise: Беспараметрическая генерация длинных видео с помощью перепланирования шума в диффузионных моделях
FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling
October 23, 2023
Авторы: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI
Аннотация
С появлением крупномасштабных видеоданных и развитием диффузионных моделей, генерация видео на основе текста достигла значительного прогресса. Однако существующие модели генерации видео обычно обучаются на ограниченном количестве кадров, что приводит к невозможности создания высококачественных длинных видео в процессе вывода. Кроме того, эти модели поддерживают только одно текстовое условие, тогда как в реальных сценариях часто требуется несколько текстовых условий, поскольку содержание видео меняется со временем. Для решения этих задач данное исследование изучает возможность расширения текстового управления для генерации более длинных видео с учетом нескольких текстов. 1) Сначала мы анализируем влияние начального шума в моделях диффузии видео. Затем, основываясь на наблюдениях за шумом, мы предлагаем FreeNoise — метод, не требующий дополнительной настройки и эффективный по времени, для улучшения генеративных способностей предварительно обученных моделей диффузии видео при сохранении согласованности содержания. В частности, вместо инициализации шума для всех кадров, мы перераспределяем последовательность шумов для обеспечения долгосрочной корреляции и применяем временное внимание к ним с помощью оконной функции. 2) Кроме того, мы разрабатываем новый метод инъекции движения для поддержки генерации видео с учетом нескольких текстовых запросов. Многочисленные эксперименты подтверждают превосходство нашего подхода в расширении генеративных возможностей моделей диффузии видео. Примечательно, что по сравнению с предыдущим наиболее эффективным методом, который требовал 255% дополнительных временных затрат, наш метод влечет лишь незначительные временные затраты, составляющие примерно 17%. Примеры сгенерированных видео доступны на нашем сайте: http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of
diffusion models, text-driven video generation has achieved substantial
progress. However, existing video generation models are typically trained on a
limited number of frames, resulting in the inability to generate high-fidelity
long videos during inference. Furthermore, these models only support
single-text conditions, whereas real-life scenarios often require multi-text
conditions as the video content changes over time. To tackle these challenges,
this study explores the potential of extending the text-driven capability to
generate longer videos conditioned on multiple texts. 1) We first analyze the
impact of initial noise in video diffusion models. Then building upon the
observation of noise, we propose FreeNoise, a tuning-free and time-efficient
paradigm to enhance the generative capabilities of pretrained video diffusion
models while preserving content consistency. Specifically, instead of
initializing noises for all frames, we reschedule a sequence of noises for
long-range correlation and perform temporal attention over them by window-based
function. 2) Additionally, we design a novel motion injection method to support
the generation of videos conditioned on multiple text prompts. Extensive
experiments validate the superiority of our paradigm in extending the
generative capabilities of video diffusion models. It is noteworthy that
compared with the previous best-performing method which brought about 255%
extra time cost, our method incurs only negligible time cost of approximately
17%. Generated video samples are available at our website:
http://haonanqiu.com/projects/FreeNoise.html.