ChatPaper.aiChatPaper

Videoleitfaden: Verbesserung von Videodiffusionsmodellen ohne Training durch einen Lehrerleitfaden

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

October 6, 2024
Autoren: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI

Zusammenfassung

Text-zu-Bild (T2I) Diffusionsmodelle haben die Erstellung visueller Inhalte revolutioniert, aber die Erweiterung dieser Fähigkeiten auf die Text-zu-Video (T2V) Generierung bleibt eine Herausforderung, insbesondere hinsichtlich der Erhaltung der zeitlichen Konsistenz. Bestehende Methoden, die darauf abzielen, die Konsistenz zu verbessern, führen oft zu Kompromissen wie verringerter Bildqualität und unpraktischen Rechenzeiten. Um diese Probleme anzugehen, stellen wir VideoGuide vor, ein neuartiges Framework, das die zeitliche Konsistenz von vorab trainierten T2V-Modellen ohne zusätzliches Training oder Feinabstimmung verbessert. VideoGuide nutzt stattdessen ein beliebiges vorab trainiertes Video-Diffusionsmodell (VDM) oder sich selbst als Leitfaden in den frühen Phasen der Inferenz und verbessert die zeitliche Qualität, indem es die denoisierten Proben des Leitmodells in den Denoising-Prozess des Abtastmodells interpoliert. Die vorgeschlagene Methode führt zu signifikanten Verbesserungen in der zeitlichen Konsistenz und Bildtreue, bietet eine kostengünstige und praktische Lösung, die die Stärken verschiedener Video-Diffusionsmodelle synergistisch nutzt. Darüber hinaus zeigen wir die vorherige Destillation auf, indem wir aufzeigen, dass Basismodelle eine verbesserte Textkohärenz erreichen können, indem sie die überlegene Datenpriorität des Leitmodells durch die vorgeschlagene Methode nutzen. Projekseite: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/

Summary

AI-Generated Summary

PDF303November 16, 2024