I4VGen : L'image comme tremplin pour la génération texte-vidéo
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
papers.authors: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
papers.abstract
La génération de texte-à-vidéo a été à la traîne par rapport à la synthèse texte-à-image en termes de qualité et de diversité, en raison de la complexité de la modélisation spatio-temporelle et des ensembles de données vidéo-texte limités. Cet article présente I4VGen, un cadre d'inférence de diffusion vidéo sans apprentissage et plug-and-play, qui améliore la génération texte-à-vidéo en exploitant des techniques d'image robustes. Plus précisément, en suivant l'approche texte-à-image-à-vidéo, I4VGen décompose la génération texte-à-vidéo en deux étapes : la synthèse d'une image d'ancrage et la synthèse vidéo guidée par cette image d'ancrage. En conséquence, un pipeline de génération-sélection bien conçu est utilisé pour obtenir une image d'ancrage visuellement réaliste et sémantiquement fidèle, et une technique innovante de Noise-Invariant Video Score Distillation Sampling est intégrée pour animer l'image en une vidéo dynamique, suivie d'un processus de régénération vidéo pour affiner la vidéo. Cette stratégie d'inférence atténue efficacement le problème courant du rapport signal-sur-bruit terminal non nul. Des évaluations approfondies montrent qu'I4VGen produit non seulement des vidéos avec un réalisme visuel et une fidélité textuelle supérieurs, mais s'intègre également de manière transparente dans les modèles de diffusion image-à-vidéo existants, améliorant ainsi la qualité globale des vidéos.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.