훈련 없이 장기 비디오 생성: 확산 모델 체인을 활용하여 전문가들
Training-free Long Video Generation with Chain of Diffusion Model Experts
August 24, 2024
저자: Wenhao Li, Yichao Cao, Xie Su, Xi Lin, Shan You, Mingkai Zheng, Yi Chen, Chang Xu
cs.AI
초록
비디오 생성 모델은 영화 제작과 같은 분야에서 상당한 잠재력을 가지고 있습니다. 그러나 현재의 비디오 확산 모델은 비디오 생성 작업의 높은 복잡성 때문에 높은 계산 비용이 필요하며 최적의 결과물을 생산하지 못합니다. 본 논문에서는 비디오 생성을 보다 쉬운 하위 작업인 구조 제어와 공간-시간 세밀화로 분리하는 효율적이고 고품질의 비디오 생성 프레임워크인 ConFiner을 제안합니다. 이는 각 전문가가 분리된 하위 작업을 담당하는 오프더셸프 확산 모델 전문가 체인을 사용하여 고품질의 비디오를 생성할 수 있습니다. 세세한 조정 중에는 여러 확산 전문가의 능력을 단일 샘플링으로 병합할 수 있는 조정된 노이즈 제거를 도입합니다. 더불어, ConFiner에 세 가지 제약 전략이 있는 ConFiner-Long 프레임워크를 설계했습니다. 실험 결과는 추론 비용의 10%만으로도 우리의 ConFiner가 Lavie와 Modelscope와 같은 대표적인 모델을 모든 객관적 및 주관적 측정 항목에서 능가한다는 것을 보여줍니다. 그리고 ConFiner-Long은 최대 600프레임까지 고품질이고 일관된 비디오를 생성할 수 있습니다.
English
Video generation models hold substantial potential in areas such as
filmmaking. However, current video diffusion models need high computational
costs and produce suboptimal results due to high complexity of video generation
task. In this paper, we propose ConFiner, an efficient high-quality
video generation framework that decouples video generation into easier
subtasks: structure control and spatial-temporal refinement.
It can generate high-quality videos with chain of off-the-shelf diffusion model
experts, each expert responsible for a decoupled subtask. During the
refinement, we introduce coordinated denoising, which can merge multiple
diffusion experts' capabilities into a single sampling. Furthermore, we design
ConFiner-Long framework, which can generate long coherent video with three
constraint strategies on ConFiner. Experimental results indicate that with only
10\% of the inference cost, our ConFiner surpasses representative models like
Lavie and Modelscope across all objective and subjective metrics. And
ConFiner-Long can generate high-quality and coherent videos with up to 600
frames.Summary
AI-Generated Summary