I4VGen : L'image comme tremplin pour la génération texte-vidéo

papers.abstract

La génération de texte-à-vidéo a été à la traîne par rapport à la synthèse texte-à-image en termes de qualité et de diversité, en raison de la complexité de la modélisation spatio-temporelle et des ensembles de données vidéo-texte limités. Cet article présente I4VGen, un cadre d'inférence de diffusion vidéo sans apprentissage et plug-and-play, qui améliore la génération texte-à-vidéo en exploitant des techniques d'image robustes. Plus précisément, en suivant l'approche texte-à-image-à-vidéo, I4VGen décompose la génération texte-à-vidéo en deux étapes : la synthèse d'une image d'ancrage et la synthèse vidéo guidée par cette image d'ancrage. En conséquence, un pipeline de génération-sélection bien conçu est utilisé pour obtenir une image d'ancrage visuellement réaliste et sémantiquement fidèle, et une technique innovante de Noise-Invariant Video Score Distillation Sampling est intégrée pour animer l'image en une vidéo dynamique, suivie d'un processus de régénération vidéo pour affiner la vidéo. Cette stratégie d'inférence atténue efficacement le problème courant du rapport signal-sur-bruit terminal non nul. Des évaluations approfondies montrent qu'I4VGen produit non seulement des vidéos avec un réalisme visuel et une fidélité textuelle supérieurs, mais s'intègre également de manière transparente dans les modèles de diffusion image-à-vidéo existants, améliorant ainsi la qualité globale des vidéos.

English

Text-to-video generation has lagged behind text-to-image synthesis in quality and diversity due to the complexity of spatio-temporal modeling and limited video-text datasets. This paper presents I4VGen, a training-free and plug-and-play video diffusion inference framework, which enhances text-to-video generation by leveraging robust image techniques. Specifically, following text-to-image-to-video, I4VGen decomposes the text-to-video generation into two stages: anchor image synthesis and anchor image-guided video synthesis. Correspondingly, a well-designed generation-selection pipeline is employed to achieve visually-realistic and semantically-faithful anchor image, and an innovative Noise-Invariant Video Score Distillation Sampling is incorporated to animate the image to a dynamic video, followed by a video regeneration process to refine the video. This inference strategy effectively mitigates the prevalent issue of non-zero terminal signal-to-noise ratio. Extensive evaluations show that I4VGen not only produces videos with higher visual realism and textual fidelity but also integrates seamlessly into existing image-to-video diffusion models, thereby improving overall video quality.

I4VGen : L'image comme tremplin pour la génération texte-vidéo

I4VGen: Image as Stepping Stone for Text-to-Video Generation

papers.abstract

Support