VideoElevator: Elevando la Calidad de Generación de Videos con Modelos de Difusión Versátiles de Texto a Imagen

Resumen

Los modelos de difusión de texto a imagen (T2I) han demostrado capacidades sin precedentes en la creación de imágenes realistas y estéticas. Por el contrario, los modelos de difusión de texto a video (T2V) aún están muy rezagados en cuanto a la calidad de los fotogramas y la alineación con el texto, debido a la insuficiente calidad y cantidad de videos de entrenamiento. En este artículo, presentamos VideoElevator, un método sin necesidad de entrenamiento y de tipo plug-and-play, que mejora el rendimiento de T2V utilizando las capacidades superiores de T2I. A diferencia del muestreo convencional de T2V (es decir, modelado temporal y espacial), VideoElevator descompone explícitamente cada paso de muestreo en refinamiento de movimiento temporal y elevación de calidad espacial. Específicamente, el refinamiento de movimiento temporal utiliza T2V encapsulado para mejorar la consistencia temporal, seguido de la inversión a la distribución de ruido requerida por T2I. Luego, la elevación de calidad espacial aprovecha T2I inflado para predecir directamente un latente menos ruidoso, añadiendo detalles más fotorrealistas. Hemos realizado experimentos con una amplia variedad de prompts bajo la combinación de varios T2V y T2I. Los resultados muestran que VideoElevator no solo mejora el rendimiento de las líneas base de T2V con T2I fundamental, sino que también facilita la síntesis de videos estilizados con T2I personalizado. Nuestro código está disponible en https://github.com/YBYBZhang/VideoElevator.

English

Text-to-image diffusion models (T2I) have demonstrated unprecedented capabilities in creating realistic and aesthetic images. On the contrary, text-to-video diffusion models (T2V) still lag far behind in frame quality and text alignment, owing to insufficient quality and quantity of training videos. In this paper, we introduce VideoElevator, a training-free and plug-and-play method, which elevates the performance of T2V using superior capabilities of T2I. Different from conventional T2V sampling (i.e., temporal and spatial modeling), VideoElevator explicitly decomposes each sampling step into temporal motion refining and spatial quality elevating. Specifically, temporal motion refining uses encapsulated T2V to enhance temporal consistency, followed by inverting to the noise distribution required by T2I. Then, spatial quality elevating harnesses inflated T2I to directly predict less noisy latent, adding more photo-realistic details. We have conducted experiments in extensive prompts under the combination of various T2V and T2I. The results show that VideoElevator not only improves the performance of T2V baselines with foundational T2I, but also facilitates stylistic video synthesis with personalized T2I. Our code is available at https://github.com/YBYBZhang/VideoElevator.

VideoElevator: Elevando la Calidad de Generación de Videos con Modelos de Difusión Versátiles de Texto a Imagen

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Resumen

Support