Reutilización y Difusión: Desenmascarado Iterativo para la Generación de Texto a Video

Resumen

Inspirados por el notable éxito de los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) en la síntesis de imágenes, estudiamos el uso de LDMs para la generación de texto a video, un desafío formidable debido a las limitaciones computacionales y de memoria durante tanto el entrenamiento como la inferencia del modelo. Un solo LDM suele ser capaz de generar solo un número muy limitado de fotogramas de video. Algunos trabajos existentes se centran en modelos de predicción separados para generar más fotogramas, pero estos sufren de costos adicionales de entrenamiento y fluctuaciones a nivel de fotograma. En este artículo, proponemos un marco llamado "Reutilizar y Difundir", denominado VidRD, para producir más fotogramas siguiendo los fotogramas ya generados por un LDM. Condicionado en un clip de video inicial con un pequeño número de fotogramas, se generan fotogramas adicionales de manera iterativa reutilizando las características latentes originales y siguiendo el proceso de difusión previo. Además, para el autocodificador utilizado para la traducción entre el espacio de píxeles y el espacio latente, inyectamos capas temporales en su decodificador y ajustamos finamente estas capas para lograr una mayor consistencia temporal. También proponemos un conjunto de estrategias para componer datos de video-texto que involucran contenido diverso de múltiples conjuntos de datos existentes, incluyendo conjuntos de datos de video para reconocimiento de acciones y conjuntos de datos de imagen-texto. Experimentos extensos muestran que nuestro método logra buenos resultados tanto en evaluaciones cuantitativas como cualitativas. Nuestra página del proyecto está disponible {aquí}.

English

Inspired by the remarkable success of Latent Diffusion Models (LDMs) for image synthesis, we study LDM for text-to-video generation, which is a formidable challenge due to the computational and memory constraints during both model training and inference. A single LDM is usually only capable of generating a very limited number of video frames. Some existing works focus on separate prediction models for generating more video frames, which suffer from additional training cost and frame-level jittering, however. In this paper, we propose a framework called "Reuse and Diffuse" dubbed VidRD to produce more frames following the frames already generated by an LDM. Conditioned on an initial video clip with a small number of frames, additional frames are iteratively generated by reusing the original latent features and following the previous diffusion process. Besides, for the autoencoder used for translation between pixel space and latent space, we inject temporal layers into its decoder and fine-tune these layers for higher temporal consistency. We also propose a set of strategies for composing video-text data that involve diverse content from multiple existing datasets including video datasets for action recognition and image-text datasets. Extensive experiments show that our method achieves good results in both quantitative and qualitative evaluations. Our project page is available https://anonymous0x233.github.io/ReuseAndDiffuse/{here}.

Reutilización y Difusión: Desenmascarado Iterativo para la Generación de Texto a Video

Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

Resumen

Support