Factorized-Dreamer: Entrenando un Generador de Vídeo de Alta Calidad con Datos Limitados y de Baja Calidad
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data
August 19, 2024
Autores: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI
Resumen
La generación de texto a video (T2V) ha ganado una atención significativa debido a sus amplias aplicaciones en la generación, edición, mejora y traducción de videos, etc. Sin embargo, la síntesis de videos de alta calidad (HQ) es extremadamente desafiante debido a los movimientos diversos y complejos que existen en el mundo real. La mayoría de los trabajos existentes luchan por abordar este problema al recolectar videos HQ a gran escala, los cuales no están disponibles para la comunidad. En este trabajo, demostramos que los datos públicamente disponibles, limitados y de baja calidad (LQ), son suficientes para entrenar un generador de videos HQ sin recapturar o ajustar finamente. Factorizamos todo el proceso de generación T2V en dos pasos: generar una imagen condicionada a un título altamente descriptivo, y sintetizar el video condicionado a la imagen generada y un título conciso de detalles de movimiento. Específicamente, presentamos Factorized-Dreamer, un marco espacio-temporal factorizado con varios diseños críticos para la generación T2V, incluyendo un adaptador para combinar incrustaciones de texto e imagen, un módulo de atención cruzada consciente de píxeles para capturar información de imagen a nivel de píxeles, un codificador de texto T5 para comprender mejor la descripción de movimiento, y un PredictNet para supervisar flujos ópticos. Además, presentamos un programa de ruido, que desempeña un papel clave en garantizar la calidad y estabilidad de la generación de videos. Nuestro modelo reduce los requisitos en títulos detallados y videos HQ, y puede ser entrenado directamente en conjuntos de datos LQ limitados con títulos ruidosos y breves como WebVid-10M, aliviando en gran medida el costo de recolectar pares de video-texto HQ a gran escala. Experimentos extensos en una variedad de tareas de generación T2V e imagen a video demuestran la efectividad de nuestro Factorized-Dreamer propuesto. Nuestros códigos fuente están disponibles en https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its
wide applications to video generation, editing, enhancement and translation,
\etc. However, high-quality (HQ) video synthesis is extremely challenging
because of the diverse and complex motions existed in real world. Most existing
works struggle to address this problem by collecting large-scale HQ videos,
which are inaccessible to the community. In this work, we show that publicly
available limited and low-quality (LQ) data are sufficient to train a HQ video
generator without recaptioning or finetuning. We factorize the whole T2V
generation process into two steps: generating an image conditioned on a highly
descriptive caption, and synthesizing the video conditioned on the generated
image and a concise caption of motion details. Specifically, we present
Factorized-Dreamer, a factorized spatiotemporal framework with several
critical designs for T2V generation, including an adapter to combine text and
image embeddings, a pixel-aware cross attention module to capture pixel-level
image information, a T5 text encoder to better understand motion description,
and a PredictNet to supervise optical flows. We further present a noise
schedule, which plays a key role in ensuring the quality and stability of video
generation. Our model lowers the requirements in detailed captions and HQ
videos, and can be directly trained on limited LQ datasets with noisy and brief
captions such as WebVid-10M, largely alleviating the cost to collect
large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and
image-to-video generation tasks demonstrate the effectiveness of our proposed
Factorized-Dreamer. Our source codes are available at
https://github.com/yangxy/Factorized-Dreamer/.Summary
AI-Generated Summary