Videogids: Verbetering van videodiffusiemodellen zonder training via een lerarengids
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
October 6, 2024
Auteurs: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI
Samenvatting
Text-to-image (T2I) diffusiemodellen hebben de creatie van visuele inhoud gerevolutioneerd, maar het uitbreiden van deze mogelijkheden naar tekst-naar-video (T2V) generatie blijft een uitdaging, met name op het gebied van het behouden van temporele consistentie. Bestaande methoden die gericht zijn op het verbeteren van consistentie veroorzaken vaak compromissen zoals verminderde beeldkwaliteit en onpraktische rekentijd. Om deze problemen aan te pakken introduceren we VideoGuide, een nieuw raamwerk dat de temporele consistentie van vooraf getrainde T2V-modellen verbetert zonder de noodzaak van extra training of fine-tuning. In plaats daarvan maakt VideoGuide gebruik van een vooraf getraind video diffusiemodel (VDM) of zichzelf als gids tijdens de vroege stadia van inferentie, waardoor de temporele kwaliteit wordt verbeterd door de gedenoiseerde monsters van het begeleidende model te interpoleren in het denoising proces van het bemonsteringsmodel. De voorgestelde methode brengt aanzienlijke verbetering in temporele consistentie en beeldgetrouwheid, en biedt een kosteneffectieve en praktische oplossing die de sterke punten van verschillende video diffusiemodellen combineert. Bovendien tonen we voorafgaande distillatie aan, waarbij wordt aangetoond dat basismodellen verbeterde tekstcoherentie kunnen bereiken door gebruik te maken van de superieure dataprior van het begeleidende model via de voorgestelde methode. Projectpagina: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content
creation, but extending these capabilities to text-to-video (T2V) generation
remains a challenge, particularly in preserving temporal consistency. Existing
methods that aim to improve consistency often cause trade-offs such as reduced
imaging quality and impractical computational time. To address these issues we
introduce VideoGuide, a novel framework that enhances the temporal consistency
of pretrained T2V models without the need for additional training or
fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model
(VDM) or itself as a guide during the early stages of inference, improving
temporal quality by interpolating the guiding model's denoised samples into the
sampling model's denoising process. The proposed method brings about
significant improvement in temporal consistency and image fidelity, providing a
cost-effective and practical solution that synergizes the strengths of various
video diffusion models. Furthermore, we demonstrate prior distillation,
revealing that base models can achieve enhanced text coherence by utilizing the
superior data prior of the guiding model through the proposed method. Project
Page: http://videoguide2025.github.io/Summary
AI-Generated Summary