VideoElevator: Elevando la Calidad de Generación de Videos con Modelos de Difusión Versátiles de Texto a Imagen
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
Autores: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
Resumen
Los modelos de difusión de texto a imagen (T2I) han demostrado capacidades sin precedentes en la creación de imágenes realistas y estéticas. Por el contrario, los modelos de difusión de texto a video (T2V) aún están muy rezagados en cuanto a la calidad de los fotogramas y la alineación con el texto, debido a la insuficiente calidad y cantidad de videos de entrenamiento. En este artículo, presentamos VideoElevator, un método sin necesidad de entrenamiento y de tipo plug-and-play, que mejora el rendimiento de T2V utilizando las capacidades superiores de T2I. A diferencia del muestreo convencional de T2V (es decir, modelado temporal y espacial), VideoElevator descompone explícitamente cada paso de muestreo en refinamiento de movimiento temporal y elevación de calidad espacial. Específicamente, el refinamiento de movimiento temporal utiliza T2V encapsulado para mejorar la consistencia temporal, seguido de la inversión a la distribución de ruido requerida por T2I. Luego, la elevación de calidad espacial aprovecha T2I inflado para predecir directamente un latente menos ruidoso, añadiendo detalles más fotorrealistas. Hemos realizado experimentos con una amplia variedad de prompts bajo la combinación de varios T2V y T2I. Los resultados muestran que VideoElevator no solo mejora el rendimiento de las líneas base de T2V con T2I fundamental, sino que también facilita la síntesis de videos estilizados con T2I personalizado. Nuestro código está disponible en https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.