I4VGen: La imagen como peldaño para la generación de texto a video
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
Autores: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
Resumen
La generación de texto a video ha estado rezagada en calidad y diversidad en comparación con la síntesis de texto a imagen debido a la complejidad del modelado espacio-temporal y a los conjuntos de datos limitados de video-texto. Este artículo presenta I4VGen, un marco de inferencia de difusión de video sin entrenamiento y de tipo plug-and-play, que mejora la generación de texto a video aprovechando técnicas robustas de imagen. Específicamente, siguiendo el enfoque de texto a imagen a video, I4VGen descompone la generación de texto a video en dos etapas: síntesis de imagen ancla y síntesis de video guiada por la imagen ancla. Correspondientemente, se emplea una canalización de generación-selección bien diseñada para lograr una imagen ancla visualmente realista y semánticamente fiel, y se incorpora un innovador Muestreo de Distorsión de Puntuación de Video Invariante al Ruido para animar la imagen a un video dinámico, seguido de un proceso de regeneración de video para refinar el resultado. Esta estrategia de inferencia mitiga eficazmente el problema prevalente de la relación señal-ruido terminal no nula. Evaluaciones exhaustivas muestran que I4VGen no solo produce videos con mayor realismo visual y fidelidad textual, sino que también se integra perfectamente en los modelos existentes de difusión de imagen a video, mejorando así la calidad general del video.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.Summary
AI-Generated Summary