ChatPaper.aiChatPaper

SEINE: 생성적 전환 및 예측을 위한 단기에서 장기 비디오 확산 모델

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

October 31, 2023
저자: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI

초록

최근 비디오 생성 기술은 현실적인 결과물을 통해 상당한 진전을 이루었습니다. 그러나 기존의 AI 생성 비디오는 대부분 단일 장면을 묘사하는 짧은 클립("샷 레벨")에 그치고 있습니다. 일관된 긴 비디오("스토리 레벨")를 제공하기 위해서는 다양한 클립 간의 창의적인 전환 및 예측 효과가 필요합니다. 본 논문은 생성적 전환과 예측에 초점을 맞춘 짧은 비디오에서 긴 비디오로의 확산 모델인 SEINE를 소개합니다. 이 모델의 목표는 장면 간의 부드럽고 창의적인 전환과 다양한 길이의 샷 레벨 비디오를 통해 고품질의 긴 비디오를 생성하는 것입니다. 구체적으로, 우리는 텍스트 설명을 기반으로 자동으로 전환을 생성하기 위해 랜덤 마스크 비디오 확산 모델을 제안합니다. 다양한 장면의 이미지를 입력으로 제공하고 텍스트 기반 제어와 결합함으로써, 우리의 모델은 일관성과 시각적 품질을 보장하는 전환 비디오를 생성합니다. 또한, 이 모델은 이미지-투-비디오 애니메이션 및 자기회귀적 비디오 예측과 같은 다양한 작업으로 쉽게 확장될 수 있습니다. 이 새로운 생성 작업을 포괄적으로 평가하기 위해, 우리는 부드럽고 창의적인 전환을 위한 세 가지 평가 기준을 제안합니다: 시간적 일관성, 의미적 유사성, 그리고 비디오-텍스트 의미적 정렬. 광범위한 실험을 통해 우리의 접근 방식이 기존의 생성적 전환 및 예측 방법보다 효과적임을 검증하며, 스토리 레벨의 긴 비디오 생성이 가능함을 입증합니다. 프로젝트 페이지: https://vchitect.github.io/SEINE-project/ .
English
Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .
PDF101December 15, 2024