VideoElevator : Amélioration de la qualité de génération vidéo grâce à des modèles de diffusion polyvalents texte-image
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
Auteurs: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
Résumé
Les modèles de diffusion texte-image (T2I) ont démontré des capacités sans précédent pour créer des images réalistes et esthétiques. En revanche, les modèles de diffusion texte-vidéo (T2V) restent encore loin derrière en termes de qualité d'image et d'alignement avec le texte, en raison de la qualité et de la quantité insuffisantes des vidéos d'entraînement. Dans cet article, nous présentons VideoElevator, une méthode sans entraînement et prête à l'emploi, qui améliore les performances des T2V en exploitant les capacités supérieures des T2I. Contrairement à l'échantillonnage conventionnel des T2V (c'est-à-dire la modélisation temporelle et spatiale), VideoElevator décompose explicitement chaque étape d'échantillonnage en un raffinement du mouvement temporel et une élévation de la qualité spatiale. Plus précisément, le raffinement du mouvement temporel utilise un T2V encapsulé pour améliorer la cohérence temporelle, suivi d'une inversion vers la distribution de bruit requise par le T2I. Ensuite, l'élévation de la qualité spatiale exploite un T2I gonflé pour prédire directement un latent moins bruyant, ajoutant ainsi des détails plus photo-réalistes. Nous avons mené des expériences sur une variété de prompts en combinant différents T2V et T2I. Les résultats montrent que VideoElevator améliore non seulement les performances des T2V de base avec des T2I fondamentaux, mais facilite également la synthèse de vidéos stylisées avec des T2I personnalisés. Notre code est disponible à l'adresse suivante : https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.Summary
AI-Generated Summary