Reutilización y Difusión: Desenmascarado Iterativo para la Generación de Texto a Video
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
September 7, 2023
Autores: Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, Hang Xu
cs.AI
Resumen
Inspirados por el notable éxito de los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) en la síntesis de imágenes, estudiamos el uso de LDMs para la generación de texto a video, un desafío formidable debido a las limitaciones computacionales y de memoria durante tanto el entrenamiento como la inferencia del modelo. Un solo LDM suele ser capaz de generar solo un número muy limitado de fotogramas de video. Algunos trabajos existentes se centran en modelos de predicción separados para generar más fotogramas, pero estos sufren de costos adicionales de entrenamiento y fluctuaciones a nivel de fotograma. En este artículo, proponemos un marco llamado "Reutilizar y Difundir", denominado VidRD, para producir más fotogramas siguiendo los fotogramas ya generados por un LDM. Condicionado en un clip de video inicial con un pequeño número de fotogramas, se generan fotogramas adicionales de manera iterativa reutilizando las características latentes originales y siguiendo el proceso de difusión previo. Además, para el autocodificador utilizado para la traducción entre el espacio de píxeles y el espacio latente, inyectamos capas temporales en su decodificador y ajustamos finamente estas capas para lograr una mayor consistencia temporal. También proponemos un conjunto de estrategias para componer datos de video-texto que involucran contenido diverso de múltiples conjuntos de datos existentes, incluyendo conjuntos de datos de video para reconocimiento de acciones y conjuntos de datos de imagen-texto. Experimentos extensos muestran que nuestro método logra buenos resultados tanto en evaluaciones cuantitativas como cualitativas. Nuestra página del proyecto está disponible {aquí}.
English
Inspired by the remarkable success of Latent Diffusion Models (LDMs) for
image synthesis, we study LDM for text-to-video generation, which is a
formidable challenge due to the computational and memory constraints during
both model training and inference. A single LDM is usually only capable of
generating a very limited number of video frames. Some existing works focus on
separate prediction models for generating more video frames, which suffer from
additional training cost and frame-level jittering, however. In this paper, we
propose a framework called "Reuse and Diffuse" dubbed VidRD to
produce more frames following the frames already generated by an LDM.
Conditioned on an initial video clip with a small number of frames, additional
frames are iteratively generated by reusing the original latent features and
following the previous diffusion process. Besides, for the autoencoder used for
translation between pixel space and latent space, we inject temporal layers
into its decoder and fine-tune these layers for higher temporal consistency. We
also propose a set of strategies for composing video-text data that involve
diverse content from multiple existing datasets including video datasets for
action recognition and image-text datasets. Extensive experiments show that our
method achieves good results in both quantitative and qualitative evaluations.
Our project page is available
https://anonymous0x233.github.io/ReuseAndDiffuse/{here}.