ВидеоЛифт: Повышение качества генерации видео с помощью универсальных моделей диффузии текста в изображение
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
Авторы: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
Аннотация
Модели диффузии текста в изображение (T2I) продемонстрировали беспрецедентные возможности в создании реалистичных и эстетических изображений. В отличие от этого, модели диффузии текста в видео (T2V) все еще значительно отстают по качеству кадра и выравниванию текста из-за недостаточного качества и количества обучающих видео. В данной статье мы представляем VideoElevator, метод без обучения и готовый к использованию, который повышает производительность T2V, используя превосходные возможности T2I. В отличие от традиционной выборки T2V (т.е. временного и пространственного моделирования), VideoElevator явно декомпозирует каждый шаг выборки на улучшение временного движения и повышение качества пространства. Конкретно, улучшение временного движения использует инкапсулированный T2V для улучшения временной согласованности, за которым следует инвертирование в распределение шума, необходимое для T2I. Затем повышение качества пространства использует раздутый T2I для прямого прогнозирования менее шумного латентного состояния, добавляя более фотореалистичные детали. Мы провели эксперименты на обширных запросах при сочетании различных T2V и T2I. Результаты показывают, что VideoElevator не только улучшает производительность базовых T2V с основным T2I, но также облегчает стилистическую синтез видео с персонализированным T2I. Наш код доступен по адресу https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.Summary
AI-Generated Summary