Factorized-Dreamer: Het trainen van een hoogwaardige videogenerator met beperkte en laagkwalitatieve data
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data
August 19, 2024
Auteurs: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI
Samenvatting
Text-to-video (T2V)-generatie heeft aanzienlijke aandacht gekregen vanwege de brede toepassingen op het gebied van videogeneratie, -bewerking, -verbetering en -vertaling, \etc. Het synthetiseren van hoogwaardige (HQ) video's is echter extreem uitdagend vanwege de diverse en complexe bewegingen die in de echte wereld voorkomen. De meeste bestaande werken worstelen met dit probleem door grootschalige HQ-video's te verzamelen, die voor de gemeenschap niet toegankelijk zijn. In dit werk tonen we aan dat publiek beschikbare beperkte en laagwaardige (LQ) gegevens voldoende zijn om een HQ-videogenerator te trainen zonder hercaptioning of finetuning. We splitsen het hele T2V-generatieproces op in twee stappen: het genereren van een afbeelding op basis van een zeer beschrijvende caption, en het synthetiseren van de video op basis van de gegenereerde afbeelding en een beknopte caption van bewegingsdetails. Specifiek presenteren we Factorized-Dreamer, een gefactoriseerd spatiotemporeel raamwerk met verschillende kritische ontwerpen voor T2V-generatie, waaronder een adapter om tekst- en afbeelding-embeddings te combineren, een pixel-aware cross attention module om pixelniveau afbeeldingsinformatie vast te leggen, een T5-tekstencoder om bewegingsbeschrijvingen beter te begrijpen, en een PredictNet om optische stromen te begeleiden. We presenteren verder een ruisschema, dat een sleutelrol speelt bij het waarborgen van de kwaliteit en stabiliteit van videogeneratie. Ons model verlaagt de vereisten voor gedetailleerde captions en HQ-video's, en kan direct worden getraind op beperkte LQ-datasets met ruwe en beknopte captions zoals WebVid-10M, waardoor de kosten voor het verzamelen van grootschalige HQ-video-tekstparen aanzienlijk worden verlicht. Uitgebreide experimenten in een verscheidenheid aan T2V- en image-to-video-generatietaken demonstreren de effectiviteit van onze voorgestelde Factorized-Dreamer. Onze broncodes zijn beschikbaar op https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its
wide applications to video generation, editing, enhancement and translation,
\etc. However, high-quality (HQ) video synthesis is extremely challenging
because of the diverse and complex motions existed in real world. Most existing
works struggle to address this problem by collecting large-scale HQ videos,
which are inaccessible to the community. In this work, we show that publicly
available limited and low-quality (LQ) data are sufficient to train a HQ video
generator without recaptioning or finetuning. We factorize the whole T2V
generation process into two steps: generating an image conditioned on a highly
descriptive caption, and synthesizing the video conditioned on the generated
image and a concise caption of motion details. Specifically, we present
Factorized-Dreamer, a factorized spatiotemporal framework with several
critical designs for T2V generation, including an adapter to combine text and
image embeddings, a pixel-aware cross attention module to capture pixel-level
image information, a T5 text encoder to better understand motion description,
and a PredictNet to supervise optical flows. We further present a noise
schedule, which plays a key role in ensuring the quality and stability of video
generation. Our model lowers the requirements in detailed captions and HQ
videos, and can be directly trained on limited LQ datasets with noisy and brief
captions such as WebVid-10M, largely alleviating the cost to collect
large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and
image-to-video generation tasks demonstrate the effectiveness of our proposed
Factorized-Dreamer. Our source codes are available at
https://github.com/yangxy/Factorized-Dreamer/.Summary
AI-Generated Summary