ChatPaper.aiChatPaper

Factorized-Dreamer: Entrenando un Generador de Vídeo de Alta Calidad con Datos Limitados y de Baja Calidad

Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data

August 19, 2024
Autores: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI

Resumen

La generación de texto a video (T2V) ha ganado una atención significativa debido a sus amplias aplicaciones en la generación, edición, mejora y traducción de videos, etc. Sin embargo, la síntesis de videos de alta calidad (HQ) es extremadamente desafiante debido a los movimientos diversos y complejos que existen en el mundo real. La mayoría de los trabajos existentes luchan por abordar este problema al recolectar videos HQ a gran escala, los cuales no están disponibles para la comunidad. En este trabajo, demostramos que los datos públicamente disponibles, limitados y de baja calidad (LQ), son suficientes para entrenar un generador de videos HQ sin recapturar o ajustar finamente. Factorizamos todo el proceso de generación T2V en dos pasos: generar una imagen condicionada a un título altamente descriptivo, y sintetizar el video condicionado a la imagen generada y un título conciso de detalles de movimiento. Específicamente, presentamos Factorized-Dreamer, un marco espacio-temporal factorizado con varios diseños críticos para la generación T2V, incluyendo un adaptador para combinar incrustaciones de texto e imagen, un módulo de atención cruzada consciente de píxeles para capturar información de imagen a nivel de píxeles, un codificador de texto T5 para comprender mejor la descripción de movimiento, y un PredictNet para supervisar flujos ópticos. Además, presentamos un programa de ruido, que desempeña un papel clave en garantizar la calidad y estabilidad de la generación de videos. Nuestro modelo reduce los requisitos en títulos detallados y videos HQ, y puede ser entrenado directamente en conjuntos de datos LQ limitados con títulos ruidosos y breves como WebVid-10M, aliviando en gran medida el costo de recolectar pares de video-texto HQ a gran escala. Experimentos extensos en una variedad de tareas de generación T2V e imagen a video demuestran la efectividad de nuestro Factorized-Dreamer propuesto. Nuestros códigos fuente están disponibles en https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its wide applications to video generation, editing, enhancement and translation, \etc. However, high-quality (HQ) video synthesis is extremely challenging because of the diverse and complex motions existed in real world. Most existing works struggle to address this problem by collecting large-scale HQ videos, which are inaccessible to the community. In this work, we show that publicly available limited and low-quality (LQ) data are sufficient to train a HQ video generator without recaptioning or finetuning. We factorize the whole T2V generation process into two steps: generating an image conditioned on a highly descriptive caption, and synthesizing the video conditioned on the generated image and a concise caption of motion details. Specifically, we present Factorized-Dreamer, a factorized spatiotemporal framework with several critical designs for T2V generation, including an adapter to combine text and image embeddings, a pixel-aware cross attention module to capture pixel-level image information, a T5 text encoder to better understand motion description, and a PredictNet to supervise optical flows. We further present a noise schedule, which plays a key role in ensuring the quality and stability of video generation. Our model lowers the requirements in detailed captions and HQ videos, and can be directly trained on limited LQ datasets with noisy and brief captions such as WebVid-10M, largely alleviating the cost to collect large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and image-to-video generation tasks demonstrate the effectiveness of our proposed Factorized-Dreamer. Our source codes are available at https://github.com/yangxy/Factorized-Dreamer/.

Summary

AI-Generated Summary

PDF173November 19, 2024