SEINE: Модель диффузии от коротких к длинным видео для генеративных переходов и предсказания
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
October 31, 2023
Авторы: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Аннотация
В последнее время генерация видео достигла значительного прогресса, демонстрируя реалистичные результаты. Тем не менее, существующие видео, созданные с помощью ИИ, обычно представляют собой очень короткие фрагменты ("уровень кадра"), изображающие одну сцену. Для создания связного длинного видео ("уровень истории") желательно иметь креативные переходы и эффекты предсказания между различными фрагментами. В данной статье представлена модель диффузии для перехода от короткого к длинному видео, SEINE, которая фокусируется на генерации переходов и предсказаний. Цель заключается в создании высококачественных длинных видео с плавными и креативными переходами между сценами и различной продолжительностью фрагментов. В частности, мы предлагаем модель диффузии видео с случайным маскированием для автоматической генерации переходов на основе текстовых описаний. Предоставляя изображения различных сцен в качестве входных данных, в сочетании с текстовым управлением, наша модель генерирует переходные видео, обеспечивая связность и визуальное качество. Кроме того, модель может быть легко расширена для различных задач, таких как анимация от изображения к видео и авторегрессивное предсказание видео. Для всесторонней оценки этой новой генеративной задачи мы предлагаем три критерия оценки для плавных и креативных переходов: временная согласованность, семантическое сходство и семантическое соответствие видео и текста. Многочисленные эксперименты подтверждают эффективность нашего подхода по сравнению с существующими методами для генерации переходов и предсказаний, что позволяет создавать длинные видео на уровне истории. Страница проекта: https://vchitect.github.io/SEINE-project/.
English
Recently video generation has achieved substantial progress with realistic
results. Nevertheless, existing AI-generated videos are usually very short
clips ("shot-level") depicting a single scene. To deliver a coherent long video
("story-level"), it is desirable to have creative transition and prediction
effects across different clips. This paper presents a short-to-long video
diffusion model, SEINE, that focuses on generative transition and prediction.
The goal is to generate high-quality long videos with smooth and creative
transitions between scenes and varying lengths of shot-level videos.
Specifically, we propose a random-mask video diffusion model to automatically
generate transitions based on textual descriptions. By providing the images of
different scenes as inputs, combined with text-based control, our model
generates transition videos that ensure coherence and visual quality.
Furthermore, the model can be readily extended to various tasks such as
image-to-video animation and autoregressive video prediction. To conduct a
comprehensive evaluation of this new generative task, we propose three
assessing criteria for smooth and creative transition: temporal consistency,
semantic similarity, and video-text semantic alignment. Extensive experiments
validate the effectiveness of our approach over existing methods for generative
transition and prediction, enabling the creation of story-level long videos.
Project page: https://vchitect.github.io/SEINE-project/ .