ChatPaper.aiChatPaper

Rerender A Video: 제로샷 텍스트 기반 비디오-투-비디오 변환

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

June 13, 2023
저자: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI

초록

대규모 텍스트-이미지 확산 모델은 고품질 이미지 생성에서 인상적인 능력을 보여주고 있습니다. 그러나 이러한 모델을 비디오 영역에 적용할 때, 비디오 프레임 간의 시간적 일관성을 보장하는 것은 여전히 큰 과제로 남아 있습니다. 본 논문은 이미지 모델을 비디오에 적응시키기 위한 새로운 제로샷 텍스트 기반 비디오-투-비디오 변환 프레임워크를 제안합니다. 이 프레임워크는 키 프레임 변환과 전체 비디오 변환 두 부분으로 구성됩니다. 첫 번째 부분은 적응된 확산 모델을 사용하여 키 프레임을 생성하며, 계층적 프레임 간 제약을 적용하여 형태, 질감 및 색상의 일관성을 강화합니다. 두 번째 부분은 시간적 인식 패치 매칭과 프레임 블렌딩을 통해 키 프레임을 다른 프레임으로 전파합니다. 우리의 프레임워크는 재학습이나 최적화 없이도 전역 스타일과 지역 질감의 시간적 일관성을 낮은 비용으로 달성합니다. 이 적응은 기존의 이미지 확산 기술과 호환되어, LoRA를 사용한 특정 주체의 맞춤화나 ControlNet을 통한 추가 공간 가이드와 같은 기술을 활용할 수 있게 합니다. 광범위한 실험 결과는 우리가 제안한 프레임워크가 기존 방법들보다 고품질이고 시간적으로 일관된 비디오를 렌더링하는 데 효과적임을 입증합니다.
English
Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.
PDF11111December 15, 2024