VEnhancer: Генеративное улучшение пространства-времени для генерации видео
VEnhancer: Generative Space-Time Enhancement for Video Generation
July 10, 2024
Авторы: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI
Аннотация
Мы представляем VEnhancer, фреймворк улучшения пространственно-временных характеристик, который повышает качество результатов преобразования текста в видео путем добавления дополнительных деталей в пространственной области и синтетического детализированного движения во временной области. Учитывая сгенерированное видео низкого качества, наш подход способен одновременно увеличить пространственное и временное разрешение с произвольным масштабированием пространства и времени через объединенную модель диффузии видео. Более того, VEnhancer эффективно устраняет пространственные артефакты и временные мерцания сгенерированных видео. Для достижения этой цели, на основе предварительно обученной модели диффузии видео мы обучаем Video ControlNet и внедряем его в модель диффузии в качестве условия для видео с низкой частотой кадров и низким разрешением. Для эффективного обучения этой Video ControlNet мы разрабатываем аугментацию данных пространства и времени, а также видео-ориентированное условие. Благодаря вышеперечисленным подходам, VEnhancer оказывается стабильным во время обучения и обладает элегантным способом обучения от начала до конца. Обширные эксперименты показывают, что VEnhancer превосходит существующие методы видео суперразрешения и пространственно-временного суперразрешения в улучшении видео, созданных искусственным интеллектом. Более того, с помощью VEnhancer существующий метод преобразования текста в видео с открытым исходным кодом, VideoCrafter-2, достигает первого места в рейтинге видео-генерации - VBench.
English
We present VEnhancer, a generative space-time enhancement framework that
improves the existing text-to-video results by adding more details in spatial
domain and synthetic detailed motion in temporal domain. Given a generated
low-quality video, our approach can increase its spatial and temporal
resolution simultaneously with arbitrary up-sampling space and time scales
through a unified video diffusion model. Furthermore, VEnhancer effectively
removes generated spatial artifacts and temporal flickering of generated
videos. To achieve this, basing on a pretrained video diffusion model, we train
a video ControlNet and inject it to the diffusion model as a condition on low
frame-rate and low-resolution videos. To effectively train this video
ControlNet, we design space-time data augmentation as well as video-aware
conditioning. Benefiting from the above designs, VEnhancer yields to be stable
during training and shares an elegant end-to-end training manner. Extensive
experiments show that VEnhancer surpasses existing state-of-the-art video
super-resolution and space-time super-resolution methods in enhancing
AI-generated videos. Moreover, with VEnhancer, exisiting open-source
state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in
video generation benchmark -- VBench.Summary
AI-Generated Summary