I2VGen-XL: 캐스케이드 확산 모델을 통한 고품질 이미지-비디오 합성
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
November 7, 2023
저자: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI
초록
비디오 합성은 최근 확산 모델의 급속한 발전으로 인해 놀라운 진전을 이루었습니다. 그러나 여전히 의미적 정확성, 선명도 및 시공간적 연속성 측면에서 어려움에 직면해 있습니다. 이러한 문제는 잘 정렬된 텍스트-비디오 데이터의 부족과 비디오의 복잡한 내재적 구조로 인해 발생하며, 이로 인해 모델이 동시에 의미적 및 질적 우수성을 보장하기 어렵습니다. 본 보고서에서는 이러한 두 요소를 분리하고 정적 이미지를 중요한 지침으로 활용하여 입력 데이터의 정렬을 보장함으로써 모델 성능을 향상시키는 계단식 I2VGen-XL 접근 방식을 제안합니다. I2VGen-XL은 두 단계로 구성됩니다: i) 기본 단계는 두 개의 계층적 인코더를 사용하여 일관된 의미를 보장하고 입력 이미지의 내용을 보존하며, ii) 개선 단계는 추가적인 간단한 텍스트를 통합하여 비디오의 세부 사항을 강화하고 해상도를 1280x720으로 향상시킵니다. 다양성을 개선하기 위해 약 3,500만 개의 단일 샷 텍스트-비디오 쌍과 60억 개의 텍스트-이미지 쌍을 수집하여 모델을 최적화했습니다. 이를 통해 I2VGen-XL은 생성된 비디오의 의미적 정확성, 세부 사항의 연속성 및 선명도를 동시에 향상시킬 수 있습니다. 광범위한 실험을 통해 I2VGen-XL의 기본 원리를 조사하고 현재의 최상위 방법과 비교함으로써 다양한 데이터에 대한 그 효과성을 입증했습니다. 소스 코드와 모델은 https://i2vgen-xl.github.io에서 공개될 예정입니다.
English
Video synthesis has recently made remarkable strides benefiting from the
rapid development of diffusion models. However, it still encounters challenges
in terms of semantic accuracy, clarity and spatio-temporal continuity. They
primarily arise from the scarcity of well-aligned text-video data and the
complex inherent structure of videos, making it difficult for the model to
simultaneously ensure semantic and qualitative excellence. In this report, we
propose a cascaded I2VGen-XL approach that enhances model performance by
decoupling these two factors and ensures the alignment of the input data by
utilizing static images as a form of crucial guidance. I2VGen-XL consists of
two stages: i) the base stage guarantees coherent semantics and preserves
content from input images by using two hierarchical encoders, and ii) the
refinement stage enhances the video's details by incorporating an additional
brief text and improves the resolution to 1280times720. To improve the
diversity, we collect around 35 million single-shot text-video pairs and 6
billion text-image pairs to optimize the model. By this means, I2VGen-XL can
simultaneously enhance the semantic accuracy, continuity of details and clarity
of generated videos. Through extensive experiments, we have investigated the
underlying principles of I2VGen-XL and compared it with current top methods,
which can demonstrate its effectiveness on diverse data. The source code and
models will be publicly available at https://i2vgen-xl.github.io.