ChatPaper.aiChatPaper

비디오 가이드: 교사 안내를 통해 훈련 없이 비디오 확산 모델 개선하기

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

October 6, 2024
저자: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI

초록

텍스트-이미지 (T2I) 확산 모델은 시각적 콘텐츠 생성을 혁신적으로 바꿨지만, 이러한 능력을 텍스트-비디오 (T2V) 생성으로 확장하는 것은 여전히 도전이며, 특히 시간적 일관성을 유지하는 것이 어렵습니다. 일관성을 향상시키려는 기존 방법들은 종종 이미징 품질 감소나 비실용적인 계산 시간과 같은 트레이드오프를 유발합니다. 이러한 문제를 해결하기 위해 우리는 VideoGuide를 소개합니다. 이는 사전 훈련된 T2V 모델의 시간적 일관성을 향상시키는 혁신적인 프레임워크로, 추가 훈련이나 세밀한 조정이 필요하지 않습니다. 대신, VideoGuide는 추론 초기 단계에서 사전 훈련된 비디오 확산 모델(VDM)이나 자체를 가이드로 활용하여, 가이드 모델의 노이즈 제거된 샘플을 샘플링 모델의 노이즈 제거 과정에 보간함으로써 시간적 품질을 향상시킵니다. 제안된 방법은 시간적 일관성과 이미지 충실도를 현저히 향상시켜 다양한 비디오 확산 모델의 강점을 시너지적으로 결합하는 비용 효율적이고 실용적인 솔루션을 제공합니다. 더불어, 우리는 사전 증류를 시연하여, 제안된 방법을 통해 가이드 모델의 우수한 데이터 사전을 활용함으로써 기본 모델이 향상된 텍스트 일관성을 달성할 수 있음을 입증합니다. 프로젝트 페이지: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/

Summary

AI-Generated Summary

PDF303November 16, 2024