세분화된 제로샷 비디오 샘플링
Fine-gained Zero-shot Video Sampling
July 31, 2024
저자: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI
초록
비디오 생성을 위해 사전 학습된 이미지 확산 모델에 시간적 차원을 통합하는 것은 일반적인 접근 방식입니다. 그러나 이 방법은 계산적으로 부담이 크며 대규모 비디오 데이터셋을 필요로 합니다. 더 중요한 것은, 이미지와 비디오 데이터셋 간의 이질성으로 인해 이미지 전문성이 심각하게 손실되는 경우가 많다는 점입니다. 최근에는 이미지 확산 모델에서 직접 비디오 스니펫을 추출하려는 시도가 이러한 문제를 어느 정도 완화했습니다. 그럼에도 불구하고, 이러한 방법들은 단순한 움직임만을 가진 짧은 비디오 클립만 생성할 수 있으며, 미세한 동작이나 비정형 변형을 포착하지 못합니다. 본 논문에서는 Stable Diffusion과 같은 기존 이미지 합성 방법에서 별도의 학습이나 최적화 없이도 고품질 비디오 클립을 직접 샘플링할 수 있는 새로운 Zero-Shot 비디오 샘플링 알고리즘인 ZS^2를 제안합니다. 구체적으로, ZS^2는 의존성 노이즈 모델과 시간적 모멘텀 어텐션을 활용하여 각각 콘텐츠 일관성과 애니메이션 일관성을 보장합니다. 이러한 능력 덕분에 조건부 및 맥락 특화 비디오 생성, 지시 기반 비디오 편집과 같은 관련 작업에서 뛰어난 성능을 발휘할 수 있습니다. 실험 결과, ZS^2는 제로샷 비디오 생성에서 최첨단 성능을 달성하며, 때로는 최근의 지도 학습 방법을 능가하기도 합니다.
홈페이지: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for
video generation is a prevalent approach. However, this method is
computationally demanding and necessitates large-scale video datasets. More
critically, the heterogeneity between image and video datasets often results in
catastrophic forgetting of the image expertise. Recent attempts to directly
extract video snippets from image diffusion models have somewhat mitigated
these problems. Nevertheless, these methods can only generate brief video clips
with simple movements and fail to capture fine-grained motion or non-grid
deformation. In this paper, we propose a novel Zero-Shot video Sampling
algorithm, denoted as ZS^2, capable of directly sampling
high-quality video clips from existing image synthesis methods, such as Stable
Diffusion, without any training or optimization. Specifically, ZS^2
utilizes the dependency noise model and temporal momentum attention to ensure
content consistency and animation coherence, respectively. This ability enables
it to excel in related tasks, such as conditional and context-specialized video
generation and instruction-guided video editing. Experimental results
demonstrate that ZS^2 achieves state-of-the-art performance in
zero-shot video generation, occasionally outperforming recent supervised
methods.
Homepage: https://densechen.github.io/zss/.Summary
AI-Generated Summary