I4VGen: Afbeelding als opstap naar tekst-naar-video-generatie
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
Auteurs: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
Samenvatting
Tekst-naar-video-generatie heeft achtergelopen op tekst-naar-beeld-synthese in kwaliteit en diversiteit vanwege de complexiteit van spatio-temporele modellering en beperkte video-tekst-datasets. Dit artikel presenteert I4VGen, een trainingsvrij en plug-and-play video-diffusie-inferentiekader, dat tekst-naar-video-generatie verbetert door gebruik te maken van robuuste beeldtechnieken. Specifiek volgt I4VGen, na tekst-naar-beeld-naar-video, een decompositie van de tekst-naar-video-generatie in twee fasen: ankerbeeld-synthese en ankerbeeld-gestuurde video-synthese. Daarbij wordt een goed ontworpen generatie-selectie-pipeline gebruikt om een visueel-realistisch en semantisch-getrouw ankerbeeld te bereiken, en wordt een innovatieve Noise-Invariant Video Score Distillation Sampling geïntegreerd om het beeld te animeren tot een dynamische video, gevolgd door een video-regeneratieproces om de video te verfijnen. Deze inferentiestrategie vermindert effectief het veelvoorkomende probleem van een niet-nul eind-signaal-ruisverhouding. Uitgebreide evaluaties tonen aan dat I4VGen niet alleen video's produceert met een hogere visuele realiteit en tekstuele trouw, maar ook naadloos integreert in bestaande beeld-naar-video-diffusiemodellen, waardoor de algehele videokwaliteit wordt verbeterd.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.