ChatPaper.aiChatPaper

VidéoGuide : Amélioration des Modèles de Diffusion Vidéo sans Entraînement à travers un Guide de l'Enseignant

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

October 6, 2024
Auteurs: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI

Résumé

Les modèles de diffusion texte-vers-image (T2I) ont révolutionné la création de contenu visuel, mais étendre ces capacités à la génération texte-vers-vidéo (T2V) reste un défi, en particulier pour préserver la cohérence temporelle. Les méthodes existantes visant à améliorer la cohérence entraînent souvent des compromis tels qu'une qualité d'image réduite et un temps de calcul impraticable. Pour résoudre ces problèmes, nous présentons VideoGuide, un nouveau cadre qui améliore la cohérence temporelle des modèles T2V pré-entraînés sans nécessiter de formation supplémentaire ou d'ajustement fin. Au lieu de cela, VideoGuide exploite un modèle de diffusion vidéo pré-entraîné (VDM) ou lui-même en tant que guide au début de l'inférence, améliorant la qualité temporelle en interpolant les échantillons débruités du modèle guide dans le processus de débruitage du modèle d'échantillonnage. La méthode proposée apporte une amélioration significative de la cohérence temporelle et de la fidélité de l'image, offrant une solution rentable et pratique qui met en synergie les forces de différents modèles de diffusion vidéo. De plus, nous démontrons la distillation préalable, révélant que les modèles de base peuvent obtenir une cohérence textuelle améliorée en utilisant la meilleure donnée antérieure du modèle guide grâce à la méthode proposée. Page du projet : http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/

Summary

AI-Generated Summary

PDF303November 16, 2024