제로스무스: 고프레임 레이트 비디오 생성을 위한 학습 불필요한 디퓨저 적응 기술
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
저자: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
초록
비디오 생성은 최근 몇 년간, 특히 비디오 확산 모델의 등장 이후로 괄목할 만한 발전을 이루었습니다. Stable Video Diffusion(SVD)와 같은 많은 비디오 생성 모델이 그럴듯한 합성 비디오를 생성할 수 있습니다. 그러나 대부분의 비디오 모델은 GPU 메모리의 한계와 많은 프레임을 모델링하는 어려움으로 인해 낮은 프레임 속도의 비디오만 생성할 수 있습니다. 학습 비디오는 항상 지정된 간격으로 균일하게 샘플링되어 시간적 압축이 이루어집니다. 기존 방법들은 픽셀 공간에서 비디오 보간 모델을 후처리 단계로 학습하거나 특정 기본 비디오 모델을 위한 잠재 공간에서 보간 모델을 학습함으로써 프레임 속도를 높였습니다. 본 논문에서는 생성적 비디오 확산 모델을 위한 학습이 필요 없는 비디오 보간 방법을 제안하며, 이 방법은 플러그 앤 플레이 방식으로 다양한 모델에 일반화 가능합니다. 우리는 비디오 확산 모델의 특징 공간에서의 비선형성을 조사하고, 설계된 은닉 상태 보정 모듈을 통합하여 비디오 모델을 자기-계단식 비디오 확산 모델로 변환합니다. 자기-계단식 아키텍처와 보정 모듈은 키 프레임과 보간된 프레임 간의 시간적 일관성을 유지하기 위해 제안되었습니다. 여러 인기 있는 비디오 모델에 대한 광범위한 평가를 수행하여 제안 방법의 효과를 입증하였으며, 특히 우리의 학습이 필요 없는 방법이 방대한 컴퓨팅 자원과 대규모 데이터셋을 지원하는 학습된 보간 모델과도 견줄 만하다는 것을 보여주었습니다.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.Summary
AI-Generated Summary