I4VGen: Bild als Ausgangspunkt für die Generierung von Text-zu-Video.
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
Autoren: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
Zusammenfassung
Die Text-zu-Video-Generierung hinkt in Bezug auf Qualität und Vielfalt der Text-zu-Bild-Synthese hinterher, aufgrund der Komplexität der räumlich-zeitlichen Modellierung und begrenzter Video-Text-Datensätze. Dieses Papier stellt I4VGen vor, ein trainingsfreies und Plug-and-Play-Video-Diffusionsinferenz-Framework, das die Text-zu-Video-Generierung durch die Nutzung robuster Bildtechniken verbessert. Speziell zerlegt I4VGen die Text-zu-Video-Generierung in zwei Phasen: Ankerbildsynthese und Ankerbild-geführte Videosynthese, nach dem Text-zu-Bild-zu-Video-Ansatz. Entsprechend wird eine gut durchdachte Generationsauswahl-Pipeline eingesetzt, um visuell realistische und semantisch treue Ankerbilder zu erzielen, und eine innovative Rausch-invarianter Video-Score-Destillationsabtastung wird integriert, um das Bild zu einem dynamischen Video zu animieren, gefolgt von einem Video-Regenerationsprozess zur Verfeinerung des Videos. Diese Inferenzstrategie mildert effektiv das weit verbreitete Problem des nicht-nullen Signal-Rausch-Verhältnisses. Umfangreiche Evaluationen zeigen, dass I4VGen nicht nur Videos mit höherer visueller Realität und textueller Treue produziert, sondern sich auch nahtlos in bestehende Bild-zu-Video-Diffusionsmodelle integriert und somit die Gesamtqualität der Videos verbessert.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.Summary
AI-Generated Summary