SEINE: Модель диффузии от коротких к длинным видео для генеративных переходов и предсказания

Аннотация

В последнее время генерация видео достигла значительного прогресса, демонстрируя реалистичные результаты. Тем не менее, существующие видео, созданные с помощью ИИ, обычно представляют собой очень короткие фрагменты ("уровень кадра"), изображающие одну сцену. Для создания связного длинного видео ("уровень истории") желательно иметь креативные переходы и эффекты предсказания между различными фрагментами. В данной статье представлена модель диффузии для перехода от короткого к длинному видео, SEINE, которая фокусируется на генерации переходов и предсказаний. Цель заключается в создании высококачественных длинных видео с плавными и креативными переходами между сценами и различной продолжительностью фрагментов. В частности, мы предлагаем модель диффузии видео с случайным маскированием для автоматической генерации переходов на основе текстовых описаний. Предоставляя изображения различных сцен в качестве входных данных, в сочетании с текстовым управлением, наша модель генерирует переходные видео, обеспечивая связность и визуальное качество. Кроме того, модель может быть легко расширена для различных задач, таких как анимация от изображения к видео и авторегрессивное предсказание видео. Для всесторонней оценки этой новой генеративной задачи мы предлагаем три критерия оценки для плавных и креативных переходов: временная согласованность, семантическое сходство и семантическое соответствие видео и текста. Многочисленные эксперименты подтверждают эффективность нашего подхода по сравнению с существующими методами для генерации переходов и предсказаний, что позволяет создавать длинные видео на уровне истории. Страница проекта: https://vchitect.github.io/SEINE-project/.

English

Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .

SEINE: Модель диффузии от коротких к длинным видео для генеративных переходов и предсказания

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Аннотация

Support